Technological Deep Dive

How to Get into the Tech

Data Science Basic/Text Analytics 4

[TA] #4 밀집 표현(dense representation)을 만들자! 워드 임베딩 - Word2Vec

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 단순 빈도(frequency)에 기반한 국소 표현은 희소 표현(sparse representation)이기 때문에 차원의 저주(curse of dimensionality)라는 문제 발생2. 단어장 크기보다 적은 차원의 밀집 표현(dense representation)을 만들어 저차원에 축소해 보자는 아이디어 3. 단어 간의 의미 관계를 포착하여 단어 벡터를 학습하는 워드 임베딩: Word2Vec, GloVe, FastText 본 포스팅에서는 ..

[TA] #3 나는 누구랑 얼마나 닮았을까? - 유사도 측정

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 사람들이 인식하는 문서의 유사도는 주로 문서들 간에 동일한 단어 또는 비슷한 단어가 얼마나 공통적으로 많이 사용되었는가에 의존2. 일반적인 문서 유사도 계산 과정은, (1) 전처리, (2) 임베딩, (3) 벡터 간 유사도 계산3. 일반적으로 문서 유사도 계산시 가장 많이 쓰이는 방법은 cosine similarity (코사인 유사도)4. 유사도는 정보 검색, 문서 분류, 추천 시스템 등 다양한 응용 분야에서 활용 본 포스팅에서는 단어 표현 방..

[TA] #2 문장과 문서는 어떻게 숫자로 표현할 수 있을까? - BoW, DTM, TF-iDF

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 단어를 표현하는 방법은 크게 국소 표현과 분산 표현으로 나눌 수 있으며, 빈도 기반 표현은 국소 표현에 해당합니다.2. 주제 분류 혹은 문서 검색과 같은 작업에서는 단어의 순서가 중요하지 않습니다. 3. 희소 표현은 많은 저장 공간과 높은 계산 복잡도를 요구합니다. 4. TF-iDF는 단어의 중요도를 고려한 단어 표현 방법으로 문서 검색에서 좋은 성능을 보입니다.  본 포스팅에서는 단어의 집합인 문장과 문서를 숫자로 표현하는 가장 간단한 방법..

[TA] #1 언어 그리고 통계적 의미론(statistical semantics)의 아이디어

*This content is based on the article written by Ji Ho Park and Gichang Lee요약1. 언어의 가장 기본이 되는 단어는 일반적으로 벡터(vector)로 표현되며, 문서는 이러한 단어들의 집합 형태로 나타낼 수 있음2. 컴퓨터가 언어를 이해하기 위해서는 확인하는 가장 기본적인 지표는 단어의 빈도수(word frequency)임3. 분포 의미론(distributional hypothesis): 비슷한 맥락에 등장하는 단어들은 유사한 의미를 지니는 경향이 있음 이를 바탕으로 '빈도(frequency)'를 '의미(semantic meaning)'로 변환할 수 있음을 설명하고자 합니다. 컴퓨터에게 언어는 어떤 의미일까?언어의 사전적 정의는 다음과 같습니다. ..

728x90
반응형