2021-03-11 TIL
in
TIL on
머신러닝,
딥러닝,
기계 학습,
Nlp 임베딩
- 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자형태인 vector로 바꾼 결과 혹은 그 일련의 과정 전체
- One-Hot Encoding
- Sparse, Dense Representation
- TD(Term-Document Matrix)
- 전이학습(Transfer learning)
- 말뭉치(corpus)
- 잠재 의미 분석(Latent Semantic Analysis) : 차원 축소
- 단어 수준 vs 문장 수준
- 행렬 분해, 예측 기반, 토픽 기반
말뭉치
- Collection(컬렉션)
- Sentence(문장)
- Document(문서)
- Token(토큰), Tokenize
- Vocabulary(어휘집합), Unknown word
임베딩 통계 정보
- BOW(Bag-Of-Words)
- Language model
- 통계 기반 언어 모델
- Markov assumption
- n-gram
- Back-off
- Smoothing
- 뉴럴 네트워크 기반 언어 모델
- distribution hypothesis
- Word2Vec
- CBOW(Continuous Bag-of-Words) 모델 : 맥락에서 단어를
- Skip-gram 모델 : 단어에서 맥락을
참고자료