출처:
[솔트룩스 전략사업본부 박진규]
TFIDF (Term Frequency Inverse Document Frequency)
- 각 문서에 존재하는 단어에 대해 연속형 수치의 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법
- 유사도 계산 후 상위 유사도 갖는 문서 검색해옴으로써 사용자의 정보 요구사항에 정확하게 부합하는 문서를 검색
- 질의문서와 검색문서 간 부분 일치 가능하게 함
- TFIDF 모델 = TF (Term Frequency) * IDF (Inverse Document Frequency)
- TF = 문서에서 단어가 나타나는 빈도. 값이 크면 해당 단어가 그 문서에서 중요도가 높다고 할 수 있음.
EX. 한 검색 문서에서 가장 많이 나타난 단어인 ‘농사’가 25번 나왔고, 그 문서에서 ‘벼’ 라는 단어가 10번 나왔다면
그 검색 문서에서 ‘벼’의 TF 값은 10/25=0.4
- DF = 전체 문서 중 해당 단어를 갖고 있는 문서의 빈도
EX. 보유 문서 1000개 중 ‘벼’라는 단어를 포함한 문서가 모두 550개라고 하면, ‘벼’의 DF값은 550/1000=0.55.
- IDF = DF의 역수에 로그를 취한 값.
* 로그 취하는 이유 : DF는 해당 단어가 여러 문서에서 나타나므로 어떤 특정 문서를 분류할 때에 사용할 수 있는 단어로서의 가치는 떨어져 역수에 log를 취함.
'공부 > 데이터분석' 카테고리의 다른 글
모델 정리 (0) | 2022.11.09 |
---|---|
PageRank / TextRank (0) | 2022.01.05 |
자카드 유사도 이용하여 의미상 중복 제거하기 (0) | 2021.11.18 |
NLP : SentencePiece 패키지로 tokenizer 만들기! (0) | 2021.11.05 |