2015-03-05 토픽모델링을 이용한 기업sns분석에 관한 연구

자연어처리 성능평가 관련 
 
2015-03-05 -----------------------
주안점: 논문에서 각 방법론을 구현한 패키지를 찾아볼 것.
선형(linear) 대수학: 요즘 비선형으로 돌아가는 추세인데, 사회과학 분야에서는 선형. 
 
LDA 방법론 : LDA(Latent Dirichlet Allocation) 통계분석.
잠재 변수들 사이의
선형 회기(사이에 있는 p 밸류값)
회기 공식에 의해서 2~30번 계산을 하는데 이를 회전한다고 한다.
분산되어 있는 워드들을 돌려서 각 잠재 변수들 사이의 관계를 유추하는 것.
 
PCA 방법론 :
 
 
마켓 3.0 시대

신프로슈머(PROducer + conSUMER) : 기존 DIY(Do-It-Yourself)수준의 프로슈머에서 진화하여 마케팅에 참여하며 성과를 창출
소셜슈머(SOCIAL + conSUMER) : 소비자 개인 이익 보다 사회 전체 혜택을 위해 의견 개진,관찰 시키는 사회 활동가로서의 소비자
큐레이슈머(CURAtor + conSUMER) : 수동적으로 소비하지 않고 자신의 스타일에 주도적 창출 원래 상품의 용도와 전혀 다르게 사용
 
3.1 Topic Modeling 소개
토픽 모델링은 대량의 문서를 분석하는 쉬운 방법을 제공하며 문서 주제와 함께 자주 출현하는 비슷한 의미의 단어 클러스터로 구성되어 있다. (Probabilistic Topic Models by Steyvers and Griffiths, 2007)
토픽 모델링이란 문서 들의 숨겨진 주제 구조를 발견하는 알고리즘의 모음이며 이러한 알고리즘은 주제 검색이나 대용량의 텍스트 문서의 요약하는데 도움이 된다. (Daive M.Blei, 2010)
 

<그림3. 1 LDA 토픽모델링의 이해 Probabilistic topic models, DaviD m. Blei 2012.04>
 

<표3. 2 토픽 모델링의 모델 및 알고리즘>
 
3.2 LDA(Latent Dirichlet Allocation)
  주제에 대한 단어 일부가 유사한 이유를 설명하고 예측할 수 있도록 설명하는 모델이다.
 
3.3 Mallet 분석
Mallet6(Machine Learnig for Language Tookit)은 LDA방법론을 이용한 UMASS Amherst University의 JAVA기반의 오픈 패키지 이며 통계적 자연 언어처리, 문서 분류, 클러스터링, 주제 모델링, 정보추출 및 텍스트에 대해 기계 학습 응용 프로그램 이다. Naïve Bayes, Maximum Entropy, and Decision Trees이 포함 되어 있으며, 여러 통계를 사용 하였다.
 
 
4.2 형태소 분석
자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절의 모든 가능한 분석 결과를 출력하는 것을 의미한다. 라고 정의 한다. 7 형태소는 의미가 있는 최소의 단위 이며 문법적 관계적인 뜻을 나타내는 단어 또는 단어의 부분을 의미한다.
 

<그림4. 2 형태소 분석과정>
 
전처리 단계에서는 단어를 추출하고 부호, 숫자, 특수 문자열을 처리한다. 분석 후보 생성에서 형태소를 분리하며 불규칙한 원형을 복원하게 된다. 결합 제약 검사를 통해 모음의 조화와 형태소 결합의 제약을 검사하며 분석후보처리과정에서는 사전 탐색과 단어의 형성의 규칙을 확인하고 복합 명사를 추정하고 사전에 미등록어를 처리하며 준말을 처리하는 후처리 단계로 진행 된다.
 
 형태소 분석기는 소프트웨어는 연구, 실험, 혹은 시제품 개발의 목적으로만 허가되는 국민대 강승식 교수의 한국어 형태소 분석기를 이용하여 형태소를 추출하였다.
 

<그림4. 3 한국어 형태소 분석기>
 
 
Mallet Toolkit 열어볼 것.
 
 

+ Recent posts