2021-03-08 TIL

TextRank


  • Markov chain : 추이행렬을 통해 변화하는 값들이 결국 어떤 안정적인 상태에 다다르는지 알 수 있다는 것
  • PageRank : 링크를 많이 타고 들어오는 웹사이트일수록 중요할 것이다라는 가정 하에 동작하는 알고리즘
  • TextRank : 단어와 단어 사이의 연결관계를 파악하여 많은 단어들과 연관이 있는 단어일수록 문서에서 중요한 의미를 지니고 있을 것이라고 추측
    • tokenizing (KoNLPy의 Okt 클래스 활용)
    • 단어가 서로 가까이 있을수록 크게 연관되어 있고 멀리 있을수록 작게 연관되어 있으리라는 추측에 기반

KR-WordRank


  • 토크나이저를 이용하지 않으면서도 단어/키워드 추출을 비지도학습 기반으로 수행
  • HITS : 중요한 웹페이지는 좋은 웹페이지로부터 링크를 많이 받은 페이지이고, 각 페이지의 authority 는 중요한 웹페이지로부터의 링크가 많을수록 높다
  • WordRank

참고 자료