[NLP] 형태소 분석과 품사 태깅

Notice

Recent Posts

Tags more

Archives

관리 메뉴

오답노트

Python/DL

권멋져 2022. 10. 3. 23:04

형태소란 언어학적으로 말을 분석할 때, 의미가 있는 가장 작은 말의 단위이다.

형태소 분석이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것 즉, 한 어절 내에 있는 모든 형태서(사전 표제어)를 분리하는 것이다.

하지만 형태소 분석은 동일한 표층형 어정이 여러가지 형태소 결합으로 분석 가능한 문제 또는 복합명사 분해 수준이 응용에 따라 달라져 모호성을 띠게 된다.

품사란 단어를 그 문법적 성질에 따라 분류한 갈래이다.

품사 태그는 형태소 분석의 기준이 되는 세분화된 품사 체계라고 할 수 있다.

위에서 설명한 형태소 분석의 모호성을 품사 태깅을 통해 해결할 수 있다.

해당 문맥에 맞는 품사 태그를 선택해야 하는데, 통계(확률) 기법(Hidden Markov Model (HMM))에 의한 해결과 기계 학습 딥러닝 기법에 의한 해결이 있다.

학습 데이터 품질 향상 및 소프트웨어 성능 향상을 위해 전처리는 필수적이다. 불필요한 데이터는 제거하고, 외국어 표기 통일 등 일반화가 필요하다.

띄어쓰기, 맞춤법
형태소 분석의 모호성
미등록어 : 신조어(추정 규칙 필요), 복합명사, 전문용어, 축약어, 외국어 등
- 언어별로 추정 규칙 다름
- 품사 추정 (주로 명사, 고유명사로 추정)
지속적인 사전 업데이트
스팸 필터링
욕설/비속어 필터링
중복문서 제거

[NLP] 규칙/패턴 기반 자연어 처리 (0)	2022.10.04
[MeCab] 형태소 분석 (0)	2022.10.03
[keras] ImageDataGenerator (0)	2022.09.29
[YOLO] Object Detection From Pretrained Model (0)	2022.09.22
[YOLO] YOLO(You Only Look Once) - Object Detection (2)	2022.09.21

'Python/DL' Related Articles