오답노트

[NLP] 규칙/패턴 기반 자연어 처리 본문

Python/DL

[NLP] 규칙/패턴 기반 자연어 처리

권멋져 2022. 10. 4. 19:37

개체명 인식

어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형인지를 인식하는 것이다.

 

BIO(Beginning-Inside-Outside) 태깅

개체명 태깅 기법 중에 Beginning-Inside-Outside 태깅 기법이 있다.

Beginning은 B-TERM으로 개체의 시작에 태깅한다.

Inside는 I-TERM으로 B-TERM가 태깅된 개체에 포함되면 그 다음부터 태깅된다.

Outside는 위에 해당하지 않는 개체에 태깅한다.

 

구문 분석

언어별 문법과 어휘의 품사나 속성 정보를 담은 사전에 기반하여 문장의 구문 구조를 분석하는 것이 구문 분석이라고한다.

자연어 문장을 SW가 처리 가능한 내부 형태로 표현하는 것이다.

 

구문 분석의 모호성

하나의 입력 문장이 여러가지 구조로 분석 가능한 문제가 존재한다.

 

패턴 매칭

단어에 대해 패턴에 매칭한다. 주어진 문자의 특정한 속성 패턴이 등장하면 매칭된다.

 

  • 장점
    • 좋은 성능
      • 패턴이 정확할 수록 더 좋아진다
      • 언어자원이 많을 수록 성능이 좋아진다.
    • 즉각 반영 가능
      • 특정 카테고리 추가/제거할 경우
  • 단점
    • 리소스 구축 비용
    • 새로운 도메인 적용이 어렵다
    • 패턴 충돌로 인한 유지 관리 이슈

 

 

'Python > DL' 카테고리의 다른 글

[NLP] 문서 분류 (KNN, 나이브 베이즈)  (0) 2022.10.04
[NLP] 문서 벡터화 & 문서 유사성  (0) 2022.10.04
[MeCab] 형태소 분석  (0) 2022.10.03
[NLP] 형태소 분석과 품사 태깅  (1) 2022.10.03
[keras] ImageDataGenerator  (0) 2022.09.29