Technological Deep Dive

How to Get into the Tech

Data Science Basic 6

[TA] #4 밀집 표현(dense representation)을 만들자! 워드 임베딩 - Word2Vec

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 단순 빈도(frequency)에 기반한 국소 표현은 희소 표현(sparse representation)이기 때문에 차원의 저주(curse of dimensionality)라는 문제 발생2. 단어장 크기보다 적은 차원의 밀집 표현(dense representation)을 만들어 저차원에 축소해 보자는 아이디어 3. 단어 간의 의미 관계를 포착하여 단어 벡터를 학습하는 워드 임베딩: Word2Vec, GloVe, FastText 본 포스팅에서는 ..

[TA] #3 나는 누구랑 얼마나 닮았을까? - 유사도 측정

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 사람들이 인식하는 문서의 유사도는 주로 문서들 간에 동일한 단어 또는 비슷한 단어가 얼마나 공통적으로 많이 사용되었는가에 의존2. 일반적인 문서 유사도 계산 과정은, (1) 전처리, (2) 임베딩, (3) 벡터 간 유사도 계산3. 일반적으로 문서 유사도 계산시 가장 많이 쓰이는 방법은 cosine similarity (코사인 유사도)4. 유사도는 정보 검색, 문서 분류, 추천 시스템 등 다양한 응용 분야에서 활용 본 포스팅에서는 단어 표현 방..

[TA] #2 문장과 문서는 어떻게 숫자로 표현할 수 있을까? - BoW, DTM, TF-iDF

* This content is based on the article written by Ji Ho Park and Gichang Lee* This content is based on the lecture content of Prof. Pilsung Kang요약1. 단어를 표현하는 방법은 크게 국소 표현과 분산 표현으로 나눌 수 있으며, 빈도 기반 표현은 국소 표현에 해당합니다.2. 주제 분류 혹은 문서 검색과 같은 작업에서는 단어의 순서가 중요하지 않습니다. 3. 희소 표현은 많은 저장 공간과 높은 계산 복잡도를 요구합니다. 4. TF-iDF는 단어의 중요도를 고려한 단어 표현 방법으로 문서 검색에서 좋은 성능을 보입니다.  본 포스팅에서는 단어의 집합인 문장과 문서를 숫자로 표현하는 가장 간단한 방법..

[ML] #2 회귀분석: Linear Regression

회귀분석(Regression Analysis)이란 통계학에서 전통적으로 많이 사용되던 분석 방법으로, 관찰된 여러 데이터를 기반으로 각 변수간의 관계를 모델링하고 이에 대한 적합도를 측정하는 방법입니다. 그 중 선형 회귀(Linear Regression)와 로지스틱 회귀(Logistic Regression)는 비슷한 이름을 가지고 있지만, 사용되는 상황과 목적이 매우 다르다는 것을 본 글을 통해 전달하고자 합니다.  회귀분석에서 사용되는 변수는 다음과 같습니다. 독립 변수(예측/설명 변수): 영향을 미칠 것으로 예상되는 변수종속 변수(기준/반응 변수): 영향을 받을 것으로 예상되는 변수먼저, 다음의 회귀분석 사례(source: https://aws.amazon.com/ko/compare/the-diffe..

[TA] #1 언어 그리고 통계적 의미론(statistical semantics)의 아이디어

*This content is based on the article written by Ji Ho Park and Gichang Lee요약1. 언어의 가장 기본이 되는 단어는 일반적으로 벡터(vector)로 표현되며, 문서는 이러한 단어들의 집합 형태로 나타낼 수 있음2. 컴퓨터가 언어를 이해하기 위해서는 확인하는 가장 기본적인 지표는 단어의 빈도수(word frequency)임3. 분포 의미론(distributional hypothesis): 비슷한 맥락에 등장하는 단어들은 유사한 의미를 지니는 경향이 있음 이를 바탕으로 '빈도(frequency)'를 '의미(semantic meaning)'로 변환할 수 있음을 설명하고자 합니다. 컴퓨터에게 언어는 어떤 의미일까?언어의 사전적 정의는 다음과 같습니다. ..

[ML] #1 Introduction to Machine Learning

인공지능과 머신러닝인공지능에 관심이 있다면, 머신러닝(Machine Learning), 딥러닝(Deep Learning), 생성형 AI(Generative AI), 초거대 AI 등 다양한 키워드를 많이 들어봤을 것입니다. 본 글에서는 인공지능과 머신러닝에 대한 소개와 기본적인 개념 그리고 머신러닝 기법의 분류 체계를 이야기하고자 합니다. 인공지능(Artificial Intelligence; AI) 정의인간의 지적능력을 컴퓨터로 구현하는 과학기술로서, ① 상황을 인지하고, ② 이성적·논리적으로 판단 및 행동하며, ③ 감성적·창의적인 기능을 수행하는 능력까지 포함(인공지능 국가전략, 2019) 인공지능의 등장 이후 시간의 흐름에 따라 전문가 시스템(Experts System)과 머신러닝(Machine Lea..

728x90
반응형