Background
- 형태소 분석
- 형태소 분리
- 품사 부착
- 어절 : 띄어쓰기 단위
- 형태소 : 의미를 갖는 최소 단위
영어의 경우 🇬🇧
FST(Finite State Transducers)

FST Table로 구현가능
한국어의 경우 🇰🇷
- 3가지 구성요소 필요
- 사전 (Resource)
- 어휘적 정보를 저장
- "나” : 명사, 동사
- “날” : 동사
- “는” : 조사, 어미”
- 접속정보
- 형태소의 좌, 우에 붙을 수 있는 품사에 대한 정보
형태소 분석 방법
최장 일치법
- 좌 최장 일치
- 좌방향으로 문자열을 보고 가장 긴 품사를 판단
- 감기는 ⇒ 감기 + 는
- 마이크로는 ⇒ 마이크(명사) + 로는(조사)
- 우 최장 일치
Tabular Prasing ⭐
- Background
- Table을 이용한 Dynamic Programming방법
- ✅ 구현이 용이
- ✅ 높은 정확도
- ❌ 사전 탐색 부담
- ❌ Backtracking필요함

(태블릿 참고)
Word Piece ⭐
- Background
- 최근 Deep learning에 적용하는 방법
- Byte Pair Encoding