공부/데이터분석

PageRank / TextRank

E0 2022. 1. 5. 08:19

TextRank 정의

구글의 *PageRank알고리즘을 기반으로, 문서 내 문장의 상대적 중요도를 계산하여 문서 내 핵심 문장을 추출하는 알고리즘. 문장을 원본 형태로 추출하는 추출적 요약에 해당.

 

* PageRank*
하이퍼링크를 가지는 웹 페이지의 상대적 중요도를 계산하여 각 페이지에 Rank를 부여하는 방법. 계산식은 다음과 같다.
 
PR(A) = (1-d)/N + d (PR(T1)/C(T1) + + R(Tn)/C(Tn))
PR(A) = 페이지 APageRank
d = Damping Factor, 페이지 접속자가 다른 페이지로 이동(다른 링크를 클릭할 확률

1) 포함된 하이퍼링크 개수가 적은 다수의 페이지로부터 많은 유입을 받거나 2) 상대적 중요도가 높은 페이지로부터 유입을 받는 경우 해당 페이지의 상대적 중요도가 높아진다.
 
왼쪽 그래프 내 각 원이 페이지, 원의 크기가 페이지의 상대적 중요도라고 할 때, B와 같이 타 페이지로부터 많은 유입을 받거나, C와 같이 상대적 중요도가 높은 페이지(B) 로부터 유입을 받는 경우 상대적 중요도가 높아진다.
이미지 출처: “wikipedia”, https://en.wikipedia.org/wiki/PageRank

 

 

 

TextRank 문서 요약 프로세스

 

 

 

 

TextRank 알고리즘 수식

V   = 문장 또는 단어

TR(V_i ) : 문장 또는 단어 i에 대한 TextRank

w_ij : 문장 또는 단어 i j 사이의 가중치

d : damping Factor, PageRank에서 페이지 접속자가 다른 페이지로 이동할 확(01 사이의 값, 0.85 사용)

 

 

출처

https://excelsior-cjh.tistory.com/93

 

TextRank를 이용한 문서요약

이번 포스팅은 구글의 PageRank를 Text에 적용시킨 TextRank 알고리즘에 대한 내용이다. TextRank 알고리즘을 알아본 후 다음 포스팅에서 TextRank를 이용하여 문서를 요약해주는 시스템 구현을 포스팅할

excelsior-cjh.tistory.com

 

https://sungmooncho.com/2012/08/26/pagerank/

 

‘쉽게 설명한’ 구글의 페이지 랭크 알고리즘

네이버 검색엔진의 문제점을 처음 지적한 글을 썼던 2년 전부터 이 블로그에 언젠가 한 번 써보고 싶었던 주제가 하나 있었다. 구글의 PageRank 알고리즘을 설명하는 것이다. 원리는 간단하지만 알

sungmooncho.com