목록분류 전체보기 (413)
오답노트
텍스트 마이닝 대규모 텍스트 자료를 분석하여 가치있는 새로운 정보를 찾아내는 것을 텍스트 마이닝이다. 문서 클러스터링 문서 분류 문서 뷴류는 NLP에서 가장 중요한 분야중 하나로 다양한 NLP 응용 시스템에서 텍스트 분류 기술을 사용한다. 스팸 메일 분류 문서 카테고리 분류 감성 분석 의도 분석 문서 클러스터링 동질성이 있는 그룹으로 문서를 묶게된다. 문서 분류는 지도학습이지만 클러스터링은 비지도 학습이다. K-means Clustering : 주어진 데이터를 k개의 그룹으로 분할 하는 알고리즘이다. 중심 기반 분할 기법으로 유사한 데이터는 중심점과 가까이 분포할 것이라는 가정을 기반으로 동작한다. DBSCAN : 노이즈가 있는 대규모 데이터에 적용할 수 있는 밀도 기반의 클러스터링 알고리즘이다. 하지만..
KNN 분류하고자 하는 데이터와 가장 가까운 k개의 데이터와 비교하여 분류하는 방법이다. 하지만 거리 계산법에 따라 더 가까운 거리의 데이터와 비교 하므로, 실제와 다를 가능성이 있다. 나이브 베이즈 변형된 조건부 확률을 통해 가장 큰 확룰의 클래스로 분류한다. 하지만 조건부 확률은 극단적인 경우에 두 확률이 모두 0일 수 있으므로 smoothing을 통해 이러한 문제를 방지한다. (아 귀찮아..)

문서의 표현 Bag of Words 문서를 단어의 집합으로 간주한다. 문서에 나타나는 각 단어는 feature로 간주되고 단어의 출현 빈도에 따른 가중치를 얻는다. Feature Selection Feature Selection은 학습 문서에 출현한 용어(term)의 부분 집합을 선택하는 것이다. 사전의 크기를 줄여서 학습에 더 효율적인 분류기를 만들고 Noise feature를 제거하여 분류의 정확도를 높인다. Term Extraction Term Extraction은 문서를 Term 단위로 분해하거나, 문서에서 Term을 추출하는 것이다. 추출 단위는 어절(띄어쓰기 단위), 형태소(형태소 분석) 등이 있다. 어떠한 Document가 있으면 Term Extraction을 통해 추출 단위에 따른 Term..
개체명 인식 어떤 이름을 의미하는 단어를 보고 그 단어가 어떤 유형인지를 인식하는 것이다. BIO(Beginning-Inside-Outside) 태깅 개체명 태깅 기법 중에 Beginning-Inside-Outside 태깅 기법이 있다. Beginning은 B-TERM으로 개체의 시작에 태깅한다. Inside는 I-TERM으로 B-TERM가 태깅된 개체에 포함되면 그 다음부터 태깅된다. Outside는 위에 해당하지 않는 개체에 태깅한다. 구문 분석 언어별 문법과 어휘의 품사나 속성 정보를 담은 사전에 기반하여 문장의 구문 구조를 분석하는 것이 구문 분석이라고한다. 자연어 문장을 SW가 처리 가능한 내부 형태로 표현하는 것이다. 구문 분석의 모호성 하나의 입력 문장이 여러가지 구조로 분석 가능한 문제가 ..
MeCab MeCab은 Vocab을 통해 형태소를 분석해주는 형태소 분석기이다. https://github.com/SOMJANG/Mecab-ko-for-Google-Colab GitHub - SOMJANG/Mecab-ko-for-Google-Colab: Use Mecab Library(NLP Library) in Google Colab Use Mecab Library(NLP Library) in Google Colab. Contribute to SOMJANG/Mecab-ko-for-Google-Colab development by creating an account on GitHub. github.com 실습 MeCab In [ ]: !git clone https://github.com/SOMJANG/M..
형태소 분석 형태소란 언어학적으로 말을 분석할 때, 의미가 있는 가장 작은 말의 단위이다. 형태소 분석이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것 즉, 한 어절 내에 있는 모든 형태서(사전 표제어)를 분리하는 것이다. 하지만 형태소 분석은 동일한 표층형 어정이 여러가지 형태소 결합으로 분석 가능한 문제 또는 복합명사 분해 수준이 응용에 따라 달라져 모호성을 띠게 된다. 품사 태깅(Parts-of-Speech Tagging , POS Tagging) 품사란 단어를 그 문법적 성질에 따라 분류한 갈래이다. 품사 태그는 형태소 분석의 기준이 되는 세분화된 품사 체계라고 할 수 있다. 위에서 설명한 형태소 분석의 모호성을 품사 태깅을 통해 해결할 수 있다. ..
https://keras.io/ko/preprocessing/image/ Image Preprocessing - Keras Documentation 이미지 전처리 [source] ImageDataGenerator 클래스 keras.preprocessing.image.ImageDataGenerator(featurewise_center=False, samplewise_center=False, featurewise_std_normalization=False, samplewise_std_normalization=False, zca_whitening=False, zca_epsi keras.io ImageDataGenerator ImageDataGenerator는 케라스에서 지원하는 객체로 따로 이미지를 담을 변수..

시각지능 딥러닝 CNN 저번주에 이어서 케라스를 이어서 사용하고 있다. CNN을 사용하기 위해 새로운 레이어를 배우고 MNIST와 CIFAR-10 예제 이미지들을 통해 이미지를 분류하는 법을 배웠다. 하지만 너무 예제 이미지라서 실제로 사용할 수 있을지 어떨지는 잘 모르겠다.. 그리고 방법만 배운것 뿐이라 모델 아키텍쳐를 구성하는 방법이나 노하우를 배우지 못해 아쉬움이 있다. YOLO 욜로는 컴퓨터 비전에서 빠지지 않는 프레임워크라고 할 수 있다. 욜로의 결과물을 보면 엄청나게 어려울 것 같지만, 어려운건 훨씬 똑똑한 사람들이 이미 다 만들어 놨다. 나는 그걸 잘 가져다 쓰고, 어떻게 응용할지만 알면 된다. 근데 그게 어렵다. 이미지라서 처리하는 속도가 느리고 데이터 양도 많아야 좋은 성능을 나타낼 수 ..

딥러닝 이번주는 드디어 딥러닝을 배우기 시작했다! 나는 텐서플로우를 배우게 될거라 생각했지만, 아주 틀리지는 않았다. 왜냐면 케라스가 텐서플로우의 포함되어있는 프레임워크가 되었기 때문이다. 수업을 실습위주로 진행되었다. 딥러닝 모델링을 할 때 필요한 요소들을 간단하게 설명하고 바로 실습으로 넘어갔다. 바로 실습을 통해 프레임워크에 익숙해지는 것은 좋았지만, 이론은 조금 부족했던 느낌이 들었다. relu나 swish같은 것들은 어떤 알고리즘인지는 설명해주셨지만, 어떤 원리로 이렇게 만들어졌는지에 대한 설명은 부족했다는 생각이든다. 그리고 너무 실습에만 집중하다 보니, 이거를 어디에 쓰는지 좀 감을 잡을 수 없었다. 오히려 실습을 하면서 모델 아키텍쳐를 구성하는 방법이나, 다른 모델을 참고할 때의 팁 같은 ..

AI모델 해석/평가 저번주 너무 험난한 미니프로젝트 덕분에 오랜만에 수업이 너무 그리웠다.. 하지만 교육 내용은 내 그리운 감정을 다 날려버릴 정도로 어려웠다.. 미니프로젝트 때 잠깐 언급됐던 내용도 강의에 있었다. 그 때에는 간단하게 표만 보고가는 정도로 생각했는데, 깊게 배워보니 꽤 어려운 내용이라고 생각된다. 강사님께서 이번을 끝으로 11월에 만날 수 있다고 한다.. 항상 좋은 강의를 해주셨는데 오랫동안 뵐 수 없는 것이 아쉬웠다.. 1차 AIVLE Day 드디어 기다리던 1차 AIVLE Day가 시작했다. 오전과 오후 초반에는 특강, 나머지 시간은 분반 사람들과 소통하고, 1기 에이블러 선배님과 에이블러 튜터님의 간담회가 이루어 졌다. 특강은 대단하신 분들이 와서 좋은 말씀을 해주셨다. 조금 아쉬..