오답노트

[NLP] 형태소 분석과 품사 태깅 본문

Python/DL

[NLP] 형태소 분석과 품사 태깅

권멋져 2022. 10. 3. 23:04

형태소 분석

형태소란 언어학적으로 말을 분석할 때, 의미가 있는 가장 작은 말의 단위이다.

형태소 분석이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것 즉, 한 어절 내에 있는 모든 형태서(사전 표제어)를 분리하는 것이다.

 

하지만 형태소 분석은 동일한 표층형 어정이 여러가지 형태소 결합으로 분석 가능한 문제 또는 복합명사 분해 수준이 응용에 따라 달라져 모호성을 띠게 된다.

 

품사 태깅(Parts-of-Speech Tagging , POS Tagging)

품사란 단어를 그 문법적 성질에 따라 분류한 갈래이다.

품사 태그는 형태소 분석의 기준이 되는 세분화된 품사 체계라고 할 수 있다.

 

위에서 설명한 형태소 분석의 모호성을 품사 태깅을 통해 해결할 수 있다.

 

해당 문맥에 맞는 품사 태그를 선택해야 하는데, 통계(확률) 기법(Hidden Markov Model (HMM))에 의한 해결과 기계 학습 딥러닝 기법에 의한 해결이 있다.

 

품사 태그 셋

 

전처리

학습 데이터 품질 향상 및 소프트웨어 성능 향상을 위해 전처리는 필수적이다. 불필요한 데이터는 제거하고, 외국어 표기 통일 등 일반화가 필요하다.

  • 띄어쓰기, 맞춤법
  • 형태소 분석의 모호성
  • 미등록어 : 신조어(추정 규칙 필요), 복합명사, 전문용어, 축약어, 외국어 등
    • 언어별로 추정 규칙 다름
    • 품사 추정 (주로 명사, 고유명사로 추정)
  • 지속적인 사전 업데이트 
  • 스팸 필터링
  • 욕설/비속어 필터링
  • 중복문서 제거