NLP05. 워드 임베딩

NLP

NLP05. 워드 임베딩

玄曄 2021. 12. 15. 20:47

NLP05. 워드 임베딩

01. 벡터화

02. 벡터화 실습 : 원-핫 인코딩 구현해보기

03. 워드 임베딩

04. Word2Vec

(1) 분포 가설

(2) CBoW

(3) Skip-gram과 Negative Sampling

(4) 영어 Word2Vec 실습과 OOV문제

05. 임베딩 벡터의 시각화

06. FastText

07. GloVe

=============================

01. 벡터화

[0] 용어 정리 및 준비사항

- 벡터화(vectorization) : 기계가 자연어 처리를 원활히 수행할 수 있도록 전처리 과정에서 텍스트를 벡터로 변환하는 과정

- BoW(Bag of Words) : 단어의 순서는 고려하지 않고, 단어의 등장 빈도만 고려해서 단어를 벡터화하는 방법. 내림차순 인덱스 부여

- OOV(Out Of Vocabulary) : 단어장에 없는 단어에 대처할 수 없어 난감한 문제

- DTM(문서 단어 행렬, Document-Term Matrix) : BoW를 사용하여 문서를 행으로, 단어를 열로 구성한 행렬. 문서 간 유사도를 비교하는 데 사용됨. 단어의 등장 빈도 반영됨

- 희소벡터(sparse vector) : BoW 또는 DTM과 같이 고차원 행렬에서 대부분의 값이 0인 벡터. 메모리 과다 사용 및 연산량 급증의 문제 야기함.

- 단어장(vocabulary) : DTM에서 중복을 배제한 단어들의 집합(set), 크기 V

- TF-IDF(Term Frequency- Inverse Document Frequency) : 모든 문서에 등장하는 단어는 중요도가 떨어지고, 특정 문서에 특정 단어가 빈번히 등장하면 중요도가 높은 단어임.

- One-hot encoding :

[2] Bag of Words/ DTM(Document Term Matrix)

[3] TF-IDF

[4] 원-핫 인코딩(one-hot encoding)

① 텍스트 데이터에서 단어장 작성

② 단어장의 단어들 고유 정수(인덱스) 부여(인덱스 부여 순서는 등장빈도의 내림차순)

③ 각 단어는 해당 인덱스 위치만 1이고 나머지는 0인 벡터 생성(one-hot vector, unit vector)

02. 벡터화 실습 : 원-핫 인코딩 구현해보기

[1] 벡터화 실습 프로세스

(Step1) 패키지 설치

(Step2) 전처리 이야기

(Step3) 토큰화 이야기

(Step4) 단어자 만들기

(Step5) 원-핫 벡터 만들기

[2] 케라스를 통한 원-핫 인코딩(one-hot encoding)

03. 워드 임베딩

[1] 희소 벡터의 문제점 :

(1) 자원의 저주(cusrse of dimensionality)

(2) 벡터 간 유사도 없음(내적이 0, orthogonal=독립적)

(3) 문제점 해결을 위한 제안

- 희소벡터인 원-핫 벡터의 문제 해결을 위해

단어장 크기 보다 작은 차원의 밀집 벡터를 학습 => 워드 임베딩

- 임베딩 벡터(embedding vector) : 워드 임베딩를 위한 실수값을 가진 밀집벡터(dense vector)

[2] 워드 임베딩(Word Embedding)

※ 원핫 벡터 vs 임베딩 벡터

구분	원-핫 벡터	임베딩 벡터
차원	고차원(단어장의 크기)	저차원
다른 표현	희소 벡터의 일종	밀집 벡터의 일종
표현 방법	수동	훈련데이터로부터 학습함
값의 타입	1과 0	실수
기반 이론	빈도 기반	분포가설/학습
알고리즘	인덱스부여, 원-핫 인코딩 함수 적용	keras.Embedding, Word2Vec, GloVe, LSA, FastText