-
Word2Vec 모델 학습(gensim)라이브러리 문서 2021. 12. 22. 20:31
word2vec을 사용하여 .model파일을 생성하고 학습시키자.
1. gensim 라이브러리
- 자연어를 벡터로 변환하는 데 필요한 대부분의 편의 기능을 제공하고 있는 라이브러리입니다.
- 물론 word2vec도 포함되어 있습니다.
※ 참조 사이트
https://radimrehurek.com/gensim/apiref.html
Gensim: topic modelling for humans
Efficient topic modelling in Python
radimrehurek.com
2. LineSentence 함수
- sentence 객체를 만들어준다.
- sentence 훈련을 위하여 사용될 words들의 목록
3. Word2Vec 함수
(1) sentence로부터 모델을 초기화하는 역할을 한다.
(2) 속성
- hs : 모델 훈련 선택(1, 계층적)
- sg : 훈련 알고리즘을 선택
1(skip-gram, 중심단어로 주변단어 예측)
0(CBoW, 주변단어들로 중심단어 예측)
4. 모델
(1) 학습용 데이터 셋을 충분히 실습해 본 결과 파일
(2) 다음에 처음부터 다시 시작하지 않고 이전에 만들어 두었던 모델을 이용할 수 있다.
(3) 모델관련 함수를 사용해 저장한다.
(4) 확장자는 .model
5. most_similar 함수
(1) 학습 데이터에서 top-N만큼 유사한 단어들을 찾아준다.
(2) 코사인 유사도(cosine similarity)를 이용하여 계산한다.
(3) 원소가 tuples인 list 자료 구조를 반환한다.
http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/
Word2Vec Tutorial - The Skip-Gram Model · Chris McCormick
Word2Vec Tutorial - The Skip-Gram Model 19 Apr 2016 This tutorial covers the skip gram neural network architecture for Word2Vec. My intention with this tutorial was to skip over the usual introductory and abstract insights about Word2Vec, and get into more
mccormickml.com
'라이브러리 문서' 카테고리의 다른 글
[혼공머신] 머신러닝 딥러닝의 핵심 패키지와 함수 (0) 2022.04.25 파이참 : 프로젝트 인터프리터 설정 (0) 2022.01.12 keras.Layers.Layer의 call()과 __call__() (0) 2022.01.07 keras.preprocessing.text.Tokenizer (0) 2021.12.26 gensim 라이브러리 (0) 2021.12.26