2015-03-05 IT 평가 방법론 - 연세대학교 정보대학원 수업내용

 
 IT 업계에 있는 사람들이 CEO에게 이거는 투자를 해야한다. 이렇게 말할 수 있기에는 굉장히 어렵다.
 IT는 절대 선제적으로 하면 안된다. 남들이 하는거 보고 따라가야 한다는 논의까지 있을정도로.
때문에 이는 평가가 뒷받침 되어야 한다. ROI 측면에서. 굉장히 논리적으로 잘 정리해서 얼마나 많은 효과를 거두었는지 말할 수 있어야 한다.
 사전적 평가를 해야하는지, 사후적 평가를 해야하는지 어떠한 접근으로 평가를 해야하는지. 논리적인 근거가 있어야 한다.
 실제 IT영역이 아닌 사람들. 이런 사람들이 대부분 CEO를 하고 있잖아요.
 만족도? 아무도 안봐요. CEO는 일반 SOC 사업처럼 수익을 말해줘야 해요. 그런데 IT는 어려워요.
 고작 Paperless, 업무시간 감소. 네거티브한 이펙트만 잡는다. 이걸 success factor로 이야기 하는 현실.
 실제 IT의 퍼포먼스를 어떻게 접근할 수 있는지, 방법론적인 프레임워크를 잡는 것이 이 강좌의 목표.
 대규모 시스템의 구축 사례를 살펴보면서 케이스 스터디를 진행할 것임.
 
B/C 분석 (Benefit / Cost)
0.85~0.9 정도가 되면 AHP를 통해서 0.5 이상이 나오면 정책적으로 진행 여부 결정
ROI (Return on Investment)
 
생산성역설 productivity paradox
IT는 어디에나 있으나 IT의 생산성에 대한 증거는 어디에도 없다.
 
IT는 GPT기술이다. (다목적 기술). IT 서비스는 전기 같아서, 언젠가는 아주 저가로 보편적인 서비스가 될 것이다. 때문에 선제적 투자 하지 말라.
현재는 그래도 효과가 있다는 쪽의 주장이 많다.
 
방법론에 대한 것도 중요하나 그 배경을 역사적으로 이해하는 것이 무엇보다도 중요하다.
(방법론의 남용 방지)
 
앞부분에는 이론적 방법론, 뒷부분에는 정량적 방법론.
Research Design 은 논문 디자인과 비슷함. (Research Proposal)
결석은 사전에 알려줄 것. 다음주에 조를 배정할 것임.
 
시험은 개념에 대한 약술. (논술이 아니기 때문에 짧게 써도 괜찮음)
 
학기중에 아래 링크의 상위 3개 영상 볼 것.
 
투자 실패 요인: IT 포트폴리오에 대한 기획단계에서 제대로 하지 못했기 때문에 실패한다.
IT 투자도 계기판으로 만들었다. 어떤 정보만 선별적으로 보여줄 것인가.
 

 
아티클을 읽고 질문을 할 것.
 
Q. 연구 방법론을 안들으면 못따라가나요?
타당성이나 신뢰성을 따지는 부분이 오버랩 될 수는 있겠으나 그 외에는 괜찮을 것이다.
 
Q. 발표에 자신의 의견을 넣는 게 맞는 것인지.
논문의 본류의 내용을 해치는 선에서 자신의 의견을 넣는 것은 허락되지 않는다. 다만, 자신의 의견을 적절히 넣는 것은 정말 좋음.
 
 
 
2015-03-05 하둡 (Hadoop) 한글 지원 (UTF-8) 지원

 
Hadoop 한글 인코딩 문제
이 문제는 한 9개월 전에 Hadoop으로 미니 프로젝트를 하면서 날려본 문제다.
문제를 해결하기 위해 백방으로 알아보고(심지어 더그커팅에게 문의까지…) 엄청난 삽질을 했지만 문제 해결을 위한 결정적 단서를 김형준님께서 주셨었다.
알다시피 자바는 유니코드, utf8기반이다
그래서 로그 처리를 하고 역색인 파일을 만드는데 입력 파일을 utf8로 변환을 해서 Hadoop 5대의 머신에 넣고 설치를 했다
뭐 처음에 영문으로만 간단하게 테스트 하고 본격적으로 한글 자료들을 Hadoop에 먹이기 시작했는데 한글이 알아보기 힘들정도로 깨져서 나오는 것이였다.
writer, reader를 고쳐보고 별짓을 다해도 안되서 고민하던중 Hadoop의 설정 파일을 고치면서 해결을 했다. (개인적으로 오픈소스 프로그램의 소스를 고치는것은 지양해야 한다고 생각한다. 소스코드의 다른 하나의 branch를 만드는 것이기 때문이다.)
문제의 요점이 아래와 같은데…
Hadoop을 돌리면 JVM에서 수많은 자식 JVM을 생성하는데 그 자식 JVM이 어미의 설정을 따르지 않아서 생기는 문제였다
그래서 아래와 같은 파일경로의 설정을 추가해주면 된다.
{$HADOOP_HOME}/conf/hadoop-site.xml 
 

<property>        
    <name>mapred.child.java.opts</name>
    <value>-Xmx200m -Dfile.encoding=utf-8</value>
    <description>Java opts for the task tracker child processes.  Subsumes
    ‘mapred.child.heap.size’ (If a mapred.child.heap.size value is found
    in a configuration, its maximum heap size will be used and a warning
    emitted that heap.size has been deprecated). Also, the following symbols,
    if present, will be interpolated: @taskid@ is replaced by current TaskID;
    and @port@ will be replaced by mapred.task.tracker.report.port + 1 (A second
    child will fail with a port-in-use if mapred.tasktracker.tasks.maximum is
    greater than one). Any other occurrences of ‘@’ will go unchanged. For
    example, to enable verbose gc logging to a file named for the taskid in
    /tmp and to set the heap maximum to be a gigabyte, pass a ‘value’ of:
        -Xmx1024m -verbose:gc -Xloggc:/tmp/@taskid@.gc
    </description>
  </property>

아주 간단한데… 이걸 발견하기 위해 고생 참 많이 했었다.
ps. 오래전에 형준님이 요청하신 포스팅이였는데 이제야 올려 드린다. ^^;
 
 
2015-03-05 토픽모델링을 이용한 기업sns분석에 관한 연구

자연어처리 성능평가 관련 
 
2015-03-05 -----------------------
주안점: 논문에서 각 방법론을 구현한 패키지를 찾아볼 것.
선형(linear) 대수학: 요즘 비선형으로 돌아가는 추세인데, 사회과학 분야에서는 선형. 
 
LDA 방법론 : LDA(Latent Dirichlet Allocation) 통계분석.
잠재 변수들 사이의
선형 회기(사이에 있는 p 밸류값)
회기 공식에 의해서 2~30번 계산을 하는데 이를 회전한다고 한다.
분산되어 있는 워드들을 돌려서 각 잠재 변수들 사이의 관계를 유추하는 것.
 
PCA 방법론 :
 
 
마켓 3.0 시대

신프로슈머(PROducer + conSUMER) : 기존 DIY(Do-It-Yourself)수준의 프로슈머에서 진화하여 마케팅에 참여하며 성과를 창출
소셜슈머(SOCIAL + conSUMER) : 소비자 개인 이익 보다 사회 전체 혜택을 위해 의견 개진,관찰 시키는 사회 활동가로서의 소비자
큐레이슈머(CURAtor + conSUMER) : 수동적으로 소비하지 않고 자신의 스타일에 주도적 창출 원래 상품의 용도와 전혀 다르게 사용
 
3.1 Topic Modeling 소개
토픽 모델링은 대량의 문서를 분석하는 쉬운 방법을 제공하며 문서 주제와 함께 자주 출현하는 비슷한 의미의 단어 클러스터로 구성되어 있다. (Probabilistic Topic Models by Steyvers and Griffiths, 2007)
토픽 모델링이란 문서 들의 숨겨진 주제 구조를 발견하는 알고리즘의 모음이며 이러한 알고리즘은 주제 검색이나 대용량의 텍스트 문서의 요약하는데 도움이 된다. (Daive M.Blei, 2010)
 

<그림3. 1 LDA 토픽모델링의 이해 Probabilistic topic models, DaviD m. Blei 2012.04>
 

<표3. 2 토픽 모델링의 모델 및 알고리즘>
 
3.2 LDA(Latent Dirichlet Allocation)
  주제에 대한 단어 일부가 유사한 이유를 설명하고 예측할 수 있도록 설명하는 모델이다.
 
3.3 Mallet 분석
Mallet6(Machine Learnig for Language Tookit)은 LDA방법론을 이용한 UMASS Amherst University의 JAVA기반의 오픈 패키지 이며 통계적 자연 언어처리, 문서 분류, 클러스터링, 주제 모델링, 정보추출 및 텍스트에 대해 기계 학습 응용 프로그램 이다. Naïve Bayes, Maximum Entropy, and Decision Trees이 포함 되어 있으며, 여러 통계를 사용 하였다.
 
 
4.2 형태소 분석
자연 언어 처리에서 말하는 형태소 분석이란 어떤 대상 어절의 모든 가능한 분석 결과를 출력하는 것을 의미한다. 라고 정의 한다. 7 형태소는 의미가 있는 최소의 단위 이며 문법적 관계적인 뜻을 나타내는 단어 또는 단어의 부분을 의미한다.
 

<그림4. 2 형태소 분석과정>
 
전처리 단계에서는 단어를 추출하고 부호, 숫자, 특수 문자열을 처리한다. 분석 후보 생성에서 형태소를 분리하며 불규칙한 원형을 복원하게 된다. 결합 제약 검사를 통해 모음의 조화와 형태소 결합의 제약을 검사하며 분석후보처리과정에서는 사전 탐색과 단어의 형성의 규칙을 확인하고 복합 명사를 추정하고 사전에 미등록어를 처리하며 준말을 처리하는 후처리 단계로 진행 된다.
 
 형태소 분석기는 소프트웨어는 연구, 실험, 혹은 시제품 개발의 목적으로만 허가되는 국민대 강승식 교수의 한국어 형태소 분석기를 이용하여 형태소를 추출하였다.
 

<그림4. 3 한국어 형태소 분석기>
 
 
Mallet Toolkit 열어볼 것.
 
 
2015-02-26 [R]데이터 마이닝 도구 "R" 소개 설치. #R프로그래밍

한줄 주석 
Ctrl + Shift + c
 
 

 
R을 통한 텍스트마이닝 - 단어클라우드(wordcloud)
"KoNLP"는 한글에 관한 텍스트 마이닝(text mining package)의 기본이며 필수
 
Text Mining For Korean
 
코딩 한 줄로 웹페이지 긁어오기 http://overthedatum.co.kr/archives/148
 
[R]데이터 마이닝 도구 "R" 소개 및 설치.
R무료 도서 http://r4pda.co.kr
 
요즘 빅데이터 분석툴로 각광을 받고 있는 Data mining 도구인 R에 대한 소개 및 설치 방법에 대해 알아보도록 하겠습니다.
R은 1993년 뉴질랜드 오클랜드대학의 통계학과 교수 2명(Ross Ihaka, Robert Gentleman)에  의하여 개발 되었으며
1976년 Bell Lab의 John Chambers, Rick Becker, Allan Wilks에 의하여 개발된 S Language에 뿌리를 두고 있습니다.
두 명의 저자(Robert Gentleman과 Ross Ihaka) 이름 맨 앞 철자로
1976년 Bell Lab에서 개발된 ‘S’ 언어의 이름에서 유추 되었다고 합니다.
R의 특징
(1) R 은S-PLUS의 환경을 기초로 해서 만들어진 통계적도구이다. (1995년Robert Gentleman,Ross Ihaka개발)
(2) R은 무료이고 공개되어 있으며 Unix, Window, MacOS등 다양한 환경에서 구동이 가능하다.
(3) R은 우수한 도움말 기능과 그래픽 성능을 가지고 있다.
(4) R은 프로그래밍 언어이고 사용자 정의함수를 작성하여사용할 수 있다.
 
 
일단 "R"을 다운로드 받기 위해 아래의 주소에서 다운받도록 합니다.
 
설치는 아래의 이미지 대로 따라만 가시면 됩니다.

 

 

 

 

 

 

 

 

 
R 설치 후 아이콘 모양

 
실행 후 모습

 
아래 간단하게 값들의 평균을 구하는 스크립트를 실행 해 보았습니다.

 
Tinn-R 편집기 설치
통계분석용 스크립트 편집을 위해  Tinn-R사용을 권장 합니다. 하이라이팅 기능 지원 및 R Console에서 실행 할 수 있는 기능이 있어 일반 텍스트 에디터에 작업하는 것 보다 큰 장점이 있습니다.
설치는 간단합니다.

 

 

 

 

 

 

 

실행 후 모습 입니다.

 
도구는 갖추어져 있으니 이제 열심히 기능들에 대해 분석하고 파헤쳐 볼 일만 남았습니다.
.by rocksea
 
2015-03-05 텍스트 마이닝 방법과 툴
 
자바 패키지 인스톨.
몇 가지 알고리즘이 있는데.
논문을 보고 알고리즘을 선택하거나.
토픽 모델링!?!?!?
형태소 분석기 - 루씬
 
외부에 맡겨서 진행. (유료)
 
 

+ Recent posts