본문 바로가기

공부/데이터분석5

모델 정리 [PORORO 감성 분석 모델](https://kakaobrain.github.io/pororo/text_cls/sentiment.html) - 뉴스 - 영화 리뷰 - 쇼핑 [Google Natural Language API](https://cloud.google.com/natural-language) - 객체명 인식 - 감성 분석 - 구문 분석 - 카테고리 분석 - [가격책정](https://cloud.google.com/natural-language/pricing) - 5,000 건 까지 무료 2022. 11. 9.
PageRank / TextRank TextRank 정의 구글의 *PageRank알고리즘을 기반으로, 문서 내 문장의 상대적 중요도를 계산하여 문서 내 핵심 문장을 추출하는 알고리즘. 문장을 원본 형태로 추출하는 추출적 요약에 해당. * PageRank* 하이퍼링크를 가지는 웹 페이지의 상대적 중요도를 계산하여 각 페이지에 Rank를 부여하는 방법. 계산식은 다음과 같다. PR(A) = (1-d)/N + d (PR(T1)/C(T1) + … + R(Tn)/C(Tn)) PR(A) = 페이지 A의 PageRank d = Damping Factor, 페이지 접속자가 다른 페이지로 이동(다른 링크를 클릭할 확률 1) 포함된 하이퍼링크 개수가 적은 다수의 페이지로부터 많은 유입을 받거나 2) 상대적 중요도가 높은 페이지로부터 유입을 받는 경우 해당 .. 2022. 1. 5.
자카드 유사도 이용하여 의미상 중복 제거하기 자카드 유사도의 변형과 활용, 상세 설명 https://radish-greens.tistory.com/2 자카드 유사도의 변형과 활용, 상세 설명 자카드 유사도(Jaccard similarity)는 두 집합의 유사도를 측정할 때 사용하는 방법 중 하나입니다. 2가지 사례만 들어보겠습니다. 뉴스를 언론에서 자체적으로 만들어낼 수도 있지만, 연합뉴스가 취 radish-greens.tistory.com https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=myincizor&logNo=221638460414 두 문서 사이의 유사도 구하기 — 자카드 유사도 이 글에서는 자카드 유사도 (Jaccard similarity)라는 개념을 이용해서 두 문.. 2021. 11. 18.
NLP : SentencePiece 패키지로 tokenizer 만들기! 특수 산업군의 데이터일수록 사용되는 용어/어투 등이 일반 어휘와 동떨어져 있다보니, konlpy 형태소 분석기를 사용해 분석할 경우 OOV 문제로 인해 뜻하지 않는 결과를 얻는 경우가 많은 것 같다. 특수한 단어들을 모두 모아 리스트로 만들어서 예외처리를 하는 방법도 있지만... 상품/작업 풀네임과 업계 사람들이 해당 상품/작업을 지칭할 때 사용하는 줄임말(이것도 제각각이다), 일상언어에 잘 쓰이지 않는 복합명사 등을 모두 찾아내 등록하는 작업이 효율이 너무 낮다는 생각이 들었다. 초딩때 놀이터에서 자주 하던 '모래에서 조개랑 예쁜 돌 찾기 놀이' 같다고 해야할까. 그래서 OOV 문제를 해결하고자! 구글의 SentencePiece 패키지를 활용해 형태소 분석기를 생성하여 적용하기로 결정하였다. * 코드 .. 2021. 11. 5.
TFIDF (Term Frequency Inverse Document Frequency) 출처: [솔트룩스 전략사업본부 박진규] http://www.saltlux.com/tech/readMore.do?t_name=sl_2_posts&category=10004&category_name=%EB%9D%BC%EC%9D%B4%EB%B8%8C%EB%9F%AC%EB%A6%AC&ID=17213&page_index=1 TFIDF (Term Frequency Inverse Document Frequency) - 각 문서에 존재하는 단어에 대해 연속형 수치의 가중치를 부여함으로써 문서의 특징을 표현한 후, 단어들 가중치의 벡터로 표현되는 두 문서간의 유사도 비교를 가능하게 하는 방법 - 유사도 계산 후 상위 유사도 갖는 문서 검색해옴으로써 사용자의 정보 요구사항에 정확하게 부합하는 문서를 검색 - 질의문서와 검.. 2021. 8. 27.