TFIDF (Term Frequency Inverse Document Frequency)

출처:

[솔트룩스 전략사업본부 박진규]

TFIDF (Term Frequency Inverse Document Frequency)

- 각 문서에 존재하는 단어에 대해 연속형 수치의 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법

- 유사도 계산 후 상위 유사도 갖는 문서 검색해옴으로써 사용자의 정보 요구사항에 정확하게 부합하는 문서를 검색

- 질의문서와 검색문서 간 부분 일치 가능하게 함

- TFIDF 모델 = TF (Term Frequency) * IDF (Inverse Document Frequency)

- TF = 문서에서 단어가 나타나는 빈도. 값이 크면 해당 단어가 그 문서에서 중요도가 높다고 할 수 있음.

EX. 한 검색 문서에서 가장 많이 나타난 단어인 ‘농사’가 25번 나왔고, 그 문서에서 ‘벼’ 라는 단어가 10번 나왔다면

그 검색 문서에서 ‘벼’의 TF 값은 10/25=0.4

- DF = 전체 문서 중 해당 단어를 갖고 있는 문서의 빈도

EX. 보유 문서 1000개 중 ‘벼’라는 단어를 포함한 문서가 모두 550개라고 하면, ‘벼’의 DF값은 550/1000=0.55.

- IDF = DF의 역수에 로그를 취한 값.

* 로그 취하는 이유 : DF는 해당 단어가 여러 문서에서 나타나므로 어떤 특정 문서를 분류할 때에 사용할 수 있는 단어로서의 가치는 떨어져 역수에 log를 취함.

모델 정리 (0)	2022.11.09
PageRank / TextRank (0)	2022.01.05
자카드 유사도 이용하여 의미상 중복 제거하기 (0)	2021.11.18
NLP : SentencePiece 패키지로 tokenizer 만들기! (0)	2021.11.05

김응애 로그