목록분류 전체보기 (408)
오답노트
https://wikidocs.net/24996 1) 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 이번 실습은 케라스 함수형 API에 대한 이해가 필요합니다. 함수형 API(functional API, https://wikidocs.net/38861 )에 대해서 우선 숙 ... wikidocs.net Sequence-to-Sequence (seq2seq) seq2seq 모델은 번역에서 많이 사용되는데, 시퀀스 입력 데이터에 대해 적절한 시퀀스 출력을 학습하기 위한 모델이다. 두 개의 RNN을 이용해 모델링되어 있는데 입력 문장을 받는 RNN 셀이 Encoder, 출력 문장을 출력하는 RNN 셀이 Decoder 이다. Encoder는 입력 문장의 모든 단어들을 순차적으로 입력 ..
https://wikidocs.net/22888 2) 장단기 메모리(Long Short-Term Memory, LSTM) 바닐라 아이스크림이 가장 기본적인 맛을 가진 아이스크림인 것처럼, 앞서 배운 RNN을 가장 단순한 형태의 RNN이라고 하여 바닐라 RNN(Vanilla RNN)이라고 합니다 ... wikidocs.net Long Short-Term Memory (LSTM) 기존 RNN의 문제점을 개선한 알고리즘이다. gradient의 소멸 및 폭주 현상 해소하고, 정보의 장거리 전달이 가능하여 기본 RNN에 비해 우수한 문제 처리 능력을 가지고 있다. RNN을 구성하는 기본 단위를 기존의 퍼셉트론에서 좀 더 복잡한구조로 바꾸는 방법을 사용하여, Cell State, Forget Gate, Input ..
https://wikidocs.net/22886 1) 순환 신경망(Recurrent Neural Network, RNN) RNN(Recurrent Neural Network)은 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델입니다. 번역기를 생각해보면 입력은 번역하고자 하는 ... wikidocs.net RNN (Recurrent Neural Network) RNN은 입력과 출력을 시퀀스 단위로 처리하는 시퀀스 모델이다. RNN은 은닉층에 hidden state를 이용하는 방법으로 다음 입력에 hidden state를 사용 하여 입력에 대한 새로운 hidden state를 계속 만들어낸다. RNN은 시퀀스 단위로 처리하기 때문에 품사태깅의 모호성을 해결할 수 있다. 현재 시점의 hid..
https://dhjkl123.tistory.com/270?category=966550 [DL] CNN (Convolutional Neural Network) 이미지 컴퓨터에서 표현하는 이미지는 픽셀 단위의 숫자로 되어 있다. 색이 없는 흑백은 1채널 색이 있는 RGB는 3채널로 이루어져 있다. CNN CNN 은 요약해서 말하자면 n*n 필터를 거쳐서 feature map을 dhjkl123.tistory.com CNN 기반 텍스트 분류 CNN은 문장의 위치 정보를 보존하면서 각 문장 성분의 등장 정보를 학습에 반영하는 구조이다. 워드 임베딩으로 단어를 벡터로 만든다. 벡터의 차원 * 같이 볼 단어의 개수 만큼의 커널로 합성곱을 계산한다. 2번에서 만들어진 값에 max pooling으로 최대값을 추출한다...
https://wikidocs.net/60851 09. 단어의 표현 방법 이번 챕터에서는 자연어 처리에서 필수적으로 사용되는 단어의 표현 방법인 원-핫 인코딩(One-hot encoding)과 워드 임베딩(Word Embedding)에 대해서 학 ... wikidocs.net 희소 표현 (Sparse Representation) 어떤 단어를 표현할 때, One-Hot Vector 형식으로 표현한 것을 희소 표현이라고 한다. One-Hot Vector는 단어가 100개가 있을 때, 99개의 0과 1개의 1로 표현하는 방법이다. 단점으로는 단어가 많아지면 차원이 많아져 공간 낭비가 있다. 밀집 표현 (Dense Representation) 희소표현은 단어의 개수만큼 차원이 많아졌지만, 밀집 표현은 사용자가 ..
텍스트 마이닝 대규모 텍스트 자료를 분석하여 가치있는 새로운 정보를 찾아내는 것을 텍스트 마이닝이다. 문서 클러스터링 문서 분류 문서 뷴류는 NLP에서 가장 중요한 분야중 하나로 다양한 NLP 응용 시스템에서 텍스트 분류 기술을 사용한다. 스팸 메일 분류 문서 카테고리 분류 감성 분석 의도 분석 문서 클러스터링 동질성이 있는 그룹으로 문서를 묶게된다. 문서 분류는 지도학습이지만 클러스터링은 비지도 학습이다. K-means Clustering : 주어진 데이터를 k개의 그룹으로 분할 하는 알고리즘이다. 중심 기반 분할 기법으로 유사한 데이터는 중심점과 가까이 분포할 것이라는 가정을 기반으로 동작한다. DBSCAN : 노이즈가 있는 대규모 데이터에 적용할 수 있는 밀도 기반의 클러스터링 알고리즘이다. 하지만..
KNN 분류하고자 하는 데이터와 가장 가까운 k개의 데이터와 비교하여 분류하는 방법이다. 하지만 거리 계산법에 따라 더 가까운 거리의 데이터와 비교 하므로, 실제와 다를 가능성이 있다. 나이브 베이즈 변형된 조건부 확률을 통해 가장 큰 확룰의 클래스로 분류한다. 하지만 조건부 확률은 극단적인 경우에 두 확률이 모두 0일 수 있으므로 smoothing을 통해 이러한 문제를 방지한다. (아 귀찮아..)
문서의 표현 Bag of Words 문서를 단어의 집합으로 간주한다. 문서에 나타나는 각 단어는 feature로 간주되고 단어의 출현 빈도에 따른 가중치를 얻는다. Feature Selection Feature Selection은 학습 문서에 출현한 용어(term)의 부분 집합을 선택하는 것이다. 사전의 크기를 줄여서 학습에 더 효율적인 분류기를 만들고 Noise feature를 제거하여 분류의 정확도를 높인다. Term Extraction Term Extraction은 문서를 Term 단위로 분해하거나, 문서에서 Term을 추출하는 것이다. 추출 단위는 어절(띄어쓰기 단위), 형태소(형태소 분석) 등이 있다. 어떠한 Document가 있으면 Term Extraction을 통해 추출 단위에 따른 Term..
개체명 인식 어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형인지를 인식하는 것이다. BIO(Beginning-Inside-Outside) 태깅 개체명 태깅 기법 중에 Beginning-Inside-Outside 태깅 기법이 있다. Beginning은 B-TERM으로 개체의 시작에 태깅한다. Inside는 I-TERM으로 B-TERM가 태깅된 개체에 포함되면 그 다음부터 태깅된다. Outside는 위에 해당하지 않는 개체에 태깅한다. 구문 분석 언어별 문법과 어휘의 품사나 속성 정보를 담은 사전에 기반하여 문장의 구문 구조를 분석하는 것이 구문 분석이라고한다. 자연어 문장을 SW가 처리 가능한 내부 형태로 표현하는 것이다. 구문 분석의 모호성 하나의 입력 문장이 여러가지 구조로 분석 가능한 문제가 ..
MeCab MeCab은 Vocab을 통해 형태소를 분석해주는 형태소 분석기이다. https://github.com/SOMJANG/Mecab-ko-for-Google-Colab GitHub - SOMJANG/Mecab-ko-for-Google-Colab: Use Mecab Library(NLP Library) in Google Colab Use Mecab Library(NLP Library) in Google Colab. Contribute to SOMJANG/Mecab-ko-for-Google-Colab development by creating an account on GitHub. github.com 실습 MeCab In [ ]: !git clone https://github.com/SOMJANG/M..