2021-03-11 TIL

임베딩


  • 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자형태인 vector로 바꾼 결과 혹은 그 일련의 과정 전체
  • One-Hot Encoding
  • Sparse, Dense Representation
  • TD(Term-Document Matrix)
  • 전이학습(Transfer learning)
  • 말뭉치(corpus)
  • 잠재 의미 분석(Latent Semantic Analysis) : 차원 축소
  • 단어 수준 vs 문장 수준
  • 행렬 분해, 예측 기반, 토픽 기반

말뭉치


  • Collection(컬렉션)
  • Sentence(문장)
  • Document(문서)
  • Token(토큰), Tokenize
  • Vocabulary(어휘집합), Unknown word

임베딩 통계 정보


  • BOW(Bag-Of-Words)
  • Language model
    • 통계 기반 언어 모델
      • Markov assumption
      • n-gram
      • Back-off
      • Smoothing
    • 뉴럴 네트워크 기반 언어 모델
      • Bert
      • GPT
      • ELMo
  • distribution hypothesis
    • Word2Vec
      • CBOW(Continuous Bag-of-Words) 모델 : 맥락에서 단어를
      • Skip-gram 모델 : 단어에서 맥락을

참고자료