오답노트
[NLP] 형태소 분석과 품사 태깅 본문
형태소 분석
형태소란 언어학적으로 말을 분석할 때, 의미가 있는 가장 작은 말의 단위이다.
형태소 분석이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것 즉, 한 어절 내에 있는 모든 형태서(사전 표제어)를 분리하는 것이다.
하지만 형태소 분석은 동일한 표층형 어정이 여러가지 형태소 결합으로 분석 가능한 문제 또는 복합명사 분해 수준이 응용에 따라 달라져 모호성을 띠게 된다.
품사 태깅(Parts-of-Speech Tagging , POS Tagging)
품사란 단어를 그 문법적 성질에 따라 분류한 갈래이다.
품사 태그는 형태소 분석의 기준이 되는 세분화된 품사 체계라고 할 수 있다.
위에서 설명한 형태소 분석의 모호성을 품사 태깅을 통해 해결할 수 있다.
해당 문맥에 맞는 품사 태그를 선택해야 하는데, 통계(확률) 기법(Hidden Markov Model (HMM))에 의한 해결과 기계 학습 딥러닝 기법에 의한 해결이 있다.
전처리
학습 데이터 품질 향상 및 소프트웨어 성능 향상을 위해 전처리는 필수적이다. 불필요한 데이터는 제거하고, 외국어 표기 통일 등 일반화가 필요하다.
- 띄어쓰기, 맞춤법
- 형태소 분석의 모호성
- 미등록어 : 신조어(추정 규칙 필요), 복합명사, 전문용어, 축약어, 외국어 등
- 언어별로 추정 규칙 다름
- 품사 추정 (주로 명사, 고유명사로 추정)
- 지속적인 사전 업데이트
- 스팸 필터링
- 욕설/비속어 필터링
- 중복문서 제거
'Python > DL' 카테고리의 다른 글
[NLP] 규칙/패턴 기반 자연어 처리 (0) | 2022.10.04 |
---|---|
[MeCab] 형태소 분석 (0) | 2022.10.03 |
[keras] ImageDataGenerator (0) | 2022.09.29 |
[YOLO] Object Detection From Pretrained Model (0) | 2022.09.22 |
[YOLO] YOLO(You Only Look Once) - Object Detection (2) | 2022.09.21 |