2016-02-15 Desperately Seeking Useful Reviews - 연세대학교 정보대학원 수업내용
텍스트 마이닝에서 User Review 분석
아마존의 Helpfulness Index 0.6 이상 기준. 정확한 근거는 없을 수 있으나, 아마존 리뷰의 분포를 보았을 때, 0.6 이상이 많긴함.
사용자가 Yes/No를 선택할 수 있음.
rbind -> positive, negative 인지 학습을 시키면, 새로운 문장이 들어오면 학습 결과를 토대로 긍정, 부정을 추론 할 수 있음
Term document matrix 가 기본.
ex) 어떤 리뷰가 Helpful 하다고 판단된다고 할 때, 단어들의 반복 정도를 추산할 수 있음. 예를 들어, 특정 단어가 Helpfulness에 얼마나 영향을 미치는지 가중치를 판단할 수 있을 것임.
! 베뎃에 영향을 미치는 요인에 관한 연구가 가능하지 않을까
의사결정트리
R -> tm package에 불용어 처리 stopwords
이번 세미나의 연구는, 개별적 helpful한 리뷰를 찾아내는 연구임. 예를 들어, 로그인 하지 않았을 때랑 로그인 하고난 다음이랑 제공되는 Helpful Review가 달라질 수 있음.
이번 연구 데이터셋은 2시간 정도 걸렸음.
Trip Advisor의 경우는 유용하다고만 투표할 수 있음.
Sentiment -> 긍정/부정
Readavility -> 가독성.
www.kaggle.com 데이터 분석을 하는 사람들의 성지. 기업들이 데이터를 올리고 가장 좋은 추천 시스템을 만드는 사람들에게 상금을 주는 방식. Yelp 데이터는 공개되어 있음. 데이터마이닝쪽 논문은 해외학회같은 경우에 데이터를 어디서 가져왔고 그 데이터가 어떤 것인지에 대해 공개를 함.
푸아송 리그레션? (Poisson regression)
Sparsity < 0.99 (27만개의 단어, 17만개의 리뷰를 돌리려면 너무 오래걸림. 800번 이상 출현단어나 이런 것들에 대해 제약을 둠)
'Research 학술연구' 카테고리의 다른 글
2016-03-08 정량적 데이터 분석 - 연세대학교 정보대학원 수업내용 (0) | 2018.05.03 |
---|---|
2016-03-03 SAD - 연세대학교 정보대학원 수업내용 (0) | 2018.05.01 |
2015-09-10 프로세스 혁신과 관리 - 연세대학교 정보대학원 수업내용 (0) | 2018.04.15 |
2016-03-24 SAD - 연세대학교 정보대학원 수업내용 (0) | 2018.04.12 |
2015-05-28 IT 평가 방법론 - 연세대학교 정보대학원 수업내용 (0) | 2018.04.10 |