2016-02-15 Desperately Seeking Useful Reviews - 연세대학교 정보대학원 수업내용

텍스트 마이닝에서 User Review 분석
 
 아마존의 Helpfulness Index 0.6 이상 기준. 정확한 근거는 없을 수 있으나, 아마존 리뷰의 분포를 보았을 때, 0.6 이상이 많긴함.
 사용자가 Yes/No를 선택할 수 있음.
 rbind -> positive, negative 인지 학습을 시키면,  새로운 문장이 들어오면 학습 결과를 토대로 긍정, 부정을 추론 할 수 있음
 Term document matrix 가 기본.
  ex) 어떤 리뷰가 Helpful 하다고 판단된다고 할 때, 단어들의 반복 정도를 추산할 수 있음. 예를 들어, 특정 단어가 Helpfulness에 얼마나 영향을 미치는지 가중치를 판단할 수 있을 것임.
  ! 베뎃에 영향을 미치는 요인에 관한 연구가 가능하지 않을까
 의사결정트리

 R -> tm package에 불용어 처리 stopwords

 
이번 세미나의 연구는, 개별적 helpful한 리뷰를 찾아내는 연구임. 예를 들어, 로그인 하지 않았을 때랑 로그인 하고난 다음이랑 제공되는 Helpful Review가 달라질 수 있음.
 이번 연구 데이터셋은 2시간 정도 걸렸음.
 Trip Advisor의 경우는 유용하다고만 투표할 수 있음.
 Sentiment -> 긍정/부정
 Readavility -> 가독성.
 www.kaggle.com 데이터 분석을 하는 사람들의 성지. 기업들이 데이터를 올리고 가장 좋은 추천 시스템을 만드는 사람들에게 상금을 주는 방식. Yelp 데이터는 공개되어 있음. 데이터마이닝쪽 논문은 해외학회같은 경우에 데이터를 어디서 가져왔고 그 데이터가 어떤 것인지에 대해 공개를 함.  
 푸아송 리그레션? (Poisson regression)
 Sparsity < 0.99 (27만개의 단어, 17만개의 리뷰를 돌리려면 너무 오래걸림. 800번 이상 출현단어나 이런 것들에 대해 제약을 둠)
 

+ Recent posts