본문 바로가기
공부/데이터분석

TFIDF (Term Frequency Inverse Document Frequency)

by E0 2021. 8. 27.

출처:

[솔트룩스 전략사업본부 박진규]  

http://www.saltlux.com/tech/readMore.do?t_name=sl_2_posts&category=10004&category_name=%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC&ID=17213&page_index=1

 

TFIDF (Term Frequency Inverse Document Frequency)

- 각 문서에 존재하는 단어에 대해 연속형 수치의 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법

- 유사도 계산 후 상위 유사도 갖는 문서 검색해옴으로써 사용자의 정보 요구사항에 정확하게 부합하는 문서를 검색

- 질의문서와 검색문서 간 부분 일치 가능하게 함

- TFIDF 모델 = TF (Term Frequency) * IDF (Inverse Document Frequency)

- TF = 문서에서 단어가 나타나는 빈도. 값이 크면 해당 단어가 그 문서에서 중요도가 높다고 할 수 있음.

EX. 한 검색 문서에서 가장 많이 나타난 단어인 ‘농사’가 25번 나왔고, 그 문서에서 ‘벼’ 라는 단어가 10번 나왔다면

그 검색 문서에서 ‘벼’의 TF 값은 10/25=0.4

 

- DF = 전체 문서 중 해당 단어를 갖고 있는 문서의 빈도

EX. 보유 문서 1000개 중 ‘벼’라는 단어를 포함한 문서가 모두 550개라고 하면, ‘벼’의 DF값은 550/1000=0.55. 

 

- IDF = DF의 역수에 로그를 취한 값. 

* 로그 취하는 이유 : DF는 해당 단어가 여러 문서에서 나타나므로 어떤 특정 문서를 분류할 때에 사용할 수 있는 단어로서의 가치는 떨어져 역수에 log를 취함.