2016-02-15 Desperately Seeking Useful Reviews - 연세대학교 정보대학원 수업내용

2018. 4. 29. 18:44

텍스트 마이닝에서 User Review 분석

아마존의 Helpfulness Index 0.6 이상 기준. 정확한 근거는 없을 수 있으나, 아마존 리뷰의 분포를 보았을 때, 0.6 이상이 많긴함.

사용자가 Yes/No를 선택할 수 있음.

rbind -> positive, negative 인지 학습을 시키면, 새로운 문장이 들어오면 학습 결과를 토대로 긍정, 부정을 추론 할 수 있음

Term document matrix 가 기본.

ex) 어떤 리뷰가 Helpful 하다고 판단된다고 할 때, 단어들의 반복 정도를 추산할 수 있음. 예를 들어, 특정 단어가 Helpfulness에 얼마나 영향을 미치는지 가중치를 판단할 수 있을 것임.

! 베뎃에 영향을 미치는 요인에 관한 연구가 가능하지 않을까

의사결정트리

R -> tm package에 불용어 처리 stopwords

이번 세미나의 연구는, 개별적 helpful한 리뷰를 찾아내는 연구임. 예를 들어, 로그인 하지 않았을 때랑 로그인 하고난 다음이랑 제공되는 Helpful Review가 달라질 수 있음.

이번 연구 데이터셋은 2시간 정도 걸렸음.

Trip Advisor의 경우는 유용하다고만 투표할 수 있음.

Sentiment -> 긍정/부정

Readavility -> 가독성.

www.kaggle.com 데이터 분석을 하는 사람들의 성지. 기업들이 데이터를 올리고 가장 좋은 추천 시스템을 만드는 사람들에게 상금을 주는 방식. Yelp 데이터는 공개되어 있음. 데이터마이닝쪽 논문은 해외학회같은 경우에 데이터를 어디서 가져왔고 그 데이터가 어떤 것인지에 대해 공개를 함.

푸아송 리그레션? (Poisson regression)

Sparsity < 0.99 (27만개의 단어, 17만개의 리뷰를 돌리려면 너무 오래걸림. 800번 이상 출현단어나 이런 것들에 대해 제약을 둠)

저작자표시 비영리 동일조건 (새창열림)

'Research 학술연구' 카테고리의 다른 글

2016-03-08 정량적 데이터 분석 - 연세대학교 정보대학원 수업내용 (0)	2018.05.03
2016-03-03 SAD - 연세대학교 정보대학원 수업내용 (0)	2018.05.01
2015-09-10 프로세스 혁신과 관리 - 연세대학교 정보대학원 수업내용 (0)	2018.04.15
2016-03-24 SAD - 연세대학교 정보대학원 수업내용 (0)	2018.04.12
2015-05-28 IT 평가 방법론 - 연세대학교 정보대학원 수업내용 (0)	2018.04.10

맹개발의 기술 블로그

2016-02-15 Desperately Seeking Useful Reviews - 연세대학교 정보대학원 수업내용

'Research 학술연구' 카테고리의 다른 글

+ Recent posts

티스토리툴바