2016-03-07 빅데이터 분석 기법의 이해와 활용  - 연세대학교 정보대학원 수업내용

•빅 데이터(big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다
(위키피디어)
 
1기가 이상의 데이터는 R에서 읽을 수 있음.
 
사실 SAS가 더 좋은거 같음.
단, 가격이 비싸고, 해당 기능외에는 사용할 수 없음. (한 카피당 5000만원)
 
R커뮤니티 (각종 패키지 )
 
TaskView를 누르면 패키지랑 설명을 알 수 있음음
 
* Rpart 의사결정 나무 패키지
 
# 설치하고
install.packages(rpart)
# 설치된거 부르기
library(rpart)
 

 

Rstudio 자동 줄 바꿈 설정
 
R 조건문

 
Barplot
평균 변수간 차이만 찾아가면 되는 부분.
 
Q4.
Sapply 사용
Barplot
 
제외된 챕터
 - 병렬처리 항목
  Do pararel
  foreach
 - SQL관련
  MySQL과 DB와 연결
  SQLdf 패키지.
데이터 프레임이 SQL문장대로 결과처리해서 알려줌.
 
SQL로 해서 해봐야지.
 
 
 
2015-10-11 텍스트마이닝 성능 지표 - 연세대학교 정보대학원 수업내용

텍스트 마이닝 기법을 이용한 연관용어 선정에 관한 실험적 연구
{김수연, 2006 #73}
 
연관용어 정확률
연관용어 일치율

연관성 척도 일치율

 
데이타마이닝 알고리즘의 분류 및 분석{이정원, 2001 #74}
 
구체적인 한글 설명은 첨부한 논문의 [3. 분류 기준] 참조
 

 
2015-05-23 Seminar with JP Hahn - 연세대학교 정보대학원 수업내용

Stochastic 모델은 모든 것을 백지에서 시작함.
 
[HM12] Hahn, J. & Mukherjee, A. (2012). The Effectiveness of IT-Enabled Knowledge Management: Is
Knowledge Sharing Sufficient? Working Paper;
 
KMS 왜 실패 했는가. 시스템 구축에만 신경썼었다.
 
[G02] Sticky Aspirations: Organizational Time Perspective and Competitiveness
해보니 좋았다.
좋고 나쁜 것을 결정 짓는 것은 aspiration level
 
----
 
the basic NK model
 
중요한 의사결정의 선택과정
NK 툴은 산맥을 만드는 과정임.

 
---
비즈니스도 아는 IT 프로그래머
IT도 아는 관리자.
 - 단순한 프로젝트의 경우 서로가 서로의 영역을 모르는 게 프로젝트가 빨리 끝남.           
 - 복잡한 프로젝트의 경우 서로가 서로의 영역을 아는 게 프로젝트 Quality가 좋음. (Overlap이 있는게 좋다. )
 - 다만, 서로의 영역을 안다고 하더라도 비대칭적으로 알고 있는 편이 효율이 더 좋다. IT를 더 많이 알고 있거나 비즈니스를 더 많이 알고 있어야 프로젝트가 잘 진행되는 것.
 
Active CEO :
Rubber stamping CEO :
 
현상이 있으면 거기에 맞추면 되는 것.
run = 실험자.
데이터는 많이 나오는데, 해석을 하는 방식이 중요함.
 
NK는 생물학 - 기업이 혁신
CA는 컴퓨터 - 수용.
Stoch  - 아무 프레임 워크
Genetic
System
 
2015-05-22  Seminar with JP Hahn - 연세대학교 정보대학원 수업내용

연구 방법의 철학적 접근은 많이 없었음.
왜 특정한 연구 방법을 쓰는가.
대부분 다른 연구에서 그런 방법론을 썼으니까 쓴다.
철학을 가지고 접근하면, 새로운 방법론을 만들수도 있을 것임.
 
메서드 섹션은 스키밍 하라.
 
Q. 새로운 방법론을 도입할 때, 리스크를 어떻게 최소화 시키는 지.
 
Q. 가정이 잘못되었을 때 어떻게 해야 하는지.
Hidden factor
개인은 profit maximizer 라는 가정을 깬 카네만의 발견.
 -> 이만하면 됐다 싶은 가정의 기준이 무엇인가.
 -> 유용성. 최소한의 변수를 가지고 제일 재밌는 결과를 낼 수 있는 기준은 연구자가 개인적 판단으로 하면 됩니다. 그리고 리뷰어들이 지적하면 넣으면 됩니다.
 
 
* 시뮬레이션 방법론은 아이디어만 좋으면 어떤 것도 할 수 있다.
* 교수님이 작업한 논문1
legitimacy 연예인이 입고 다니면 나도 입고 싶다. (노스페이스 등)
 vs competition 너무 많은 사람들이 입고 다니면 입기 싫어진다.
* 교수님이 작업한 논문2
ULMX vs DLMX
네트워크가 크고 불확실성이 클수록 DLMX 가 좋다. (특정 사용자를 편애하는 것)
 
 
# 연구주제
Computational 모델을 활용하여,
e-직접 민주주의 모델을 제안
신 공산주의 모델을 제안
한국의 미래를 예측.
 
제임스 마치. 시뮬레이션을 함. 사람들이 인용하면서 시뮬레이션인지 모르고 인용하는 경우가 많음.
코드를 받아서 해봤는데 Metlab 파일이었는데 버그가 있었다. 그래서 다른 모델, 다른 프레임 워크를 가져와서 진행을 했음.
 
Day 1 (AM):
- Topic 1: Course introduction and overview of research methods in the social sciences
o Common Readings: [M81], [AMJ11; Parts 1, 3 and 5]1
- Topic II: Introduction to theory building using simulation methods
o Common Readings: [DBE07], [BO95], [RK13]
Day 1 (PM):
- Topic: Cellular Automata Models and Network Models
o Common Readings: [LL96], [OJ07]
o Paper Presentations:
[GLM01],
Two state of individual
 - 영향을 많이 받는 구전효과가 있고 (B 베타)
 - 광고와 같은 다른 마케팅 효과 ( a 알파)

손으로 계산할 수 있는 수학적 규칙을 컴퓨터를 활용해서 더 빠르게 처리한 것.
 
[GLM02]
현상이 설명이 안되는 경우가 많다.
Adaption Thoery 보면, 왜 팔리다가 안팔리다가 팔리느냐. 여기에 대해 양면시장 이론이니 여러가지 이론이 있죠.(얼리 아답터, 일반 대중) 하지만 검증된 것은 아니죠. 검증하기는 어렵지만, 시뮬레이션을 돌릴 수는 있겠죠. 시뮬레이션을 돌려서 그 시점을 파악해내는 것이죠. 확률을 가지고.

[A97],
사람들이 여행을 가는 데, 문화가 비슷한 나라로 가거나 완전히 다른 나라로 가지 않을까.
그럼 이런 상황에서 문화의 전파는 어떻게 이루어지고 어떤식으로 상호작용하는지를 보고자 한 논문임.

여기에서 제시된 숫자는 수치상의 의미를 지니는 것이 아니라 단순히 Symbol로 작용한 것임.

어떤 환경에서 문화의 확산이 이루어지는 지를 파악할 수 있고, 언제 그렇게 되는지도 파악할 수 있다.
 
[COPK10]
굉장히 추상적인 이론임.
구글이 광고 시장을 꽉 잡고 있음. 과연 야후나 MS가 뒤엎을 수 있을까. 가상적인 질문을 던지는 것임.
 - 경제학의 Network Effect 에 따르면 Critical Mass에 도달하면 Winner takes all이다. 그런데 왜 MS나 야후는 계속해서 이 사업을 하는가.
카이스트 오원석 교수님
[KOJ07],
 
[JFK14]
EMERGENCE OF POWER LAWS IN ONLINE COMMUNITIES:
THE ROLE OF SOCIAL MECHANISMS AND PREFERENTIAL
ATTACHMENT1
온라인 커뮤니티에서 인터렉션시 작용하는 파워법칙에 대한 논문.

사실 네트워크 구조/이론/현상은 흔히들 일어난다. (물리학 background)
preferential attachment. 잘나가는 집단에 속하려고 하는 것.
 - 온라인 커뮤니티에서 같은 현상이 나타나는지.
Scale Free Networks. 갑자기 네트웍이 무너진다거나 이런 형태가 잘 일어나지 않는 안정적인 네트워크.
 
o Deep Dive Applications: [SH10], [MHOK14]
Day 2 (AM):
- Topic: Stochastic Models
o Common Readings: [CMO72]
o Paper Presentations: [M91], [C92], [MZC06], [RCA06], [G02]
o Deep Dive Applications: [HM12]
Day 2 (PM):
- Topic: NK Fitness Landscape Models
o Common Readings: [L97]
o Paper Presentations: [RS03], [GL00], [AC10], [LP07], [EL04],
o Deep Dive Applications: [HLH13], [HL14], [YH14]
 
-----
 
List of Readings
Common and Individual
[A97] Axelrod, R. (1997). The Dissemination of Culture. Journal of Conflict Resolution 41(2) 203–
226.
[AC10] Almirall, E. & Casadesus-Masanell, R. (2010). Open versus Closed Innovation: A Model of
Discovery and Divergence. Academy of Management Review 35(1) 27–47.
[AMJ11] Editors at Academy of Management Journal (2011-2012) Publishing in AMJ. Academy of
Management Journal 54(3)-55(3).
[BO95] Burton, R.M., & Obel, B.(1995) The Validity of Computational Models in Organization
Science: From Model Realism to Purpose of the Model. Computational and Mathematical
Organization Theory 1(1) 57–71.
[C92] Carley, K. (1992). Organizational Learning and Personnel Turnover. Organization Science 3(1)
20–46.
[CMO72] Cohen, M.D., March, J.G., & Olsen, J. (1972). A Garbage Can Model of Organizational
Choice. Administrative Science Quarterly 17(1) 1–25.
[COPK10] Chang, R.M., Oh, W., Pinsonneault, A. & Kwon, D. (2010). A Network Perspective of Digital
Competition in Online Advertising Industries: A Simulation-Based Approach. Information
Systems Research 21(3) 571–593.
[DBE07] Davis, J., Bingham, C. & Eisenhardt, K. (2007) Developing Theory Through Simulation
Methods. Academy of Management Review 32(2) 480–499.
[EL04] Ethiraj, S. & Levinthal, D. (2004). Modularity and Innovation in Complex Systems.
Management Science 50(2) 159–173.
[G02] Greve, H. (2002). Sticky Aspirations: Organizational Time Perspective and Competitiveness.
Organization Science 13(1) 1–17.
[GL00] Gavetti, G., & Levinthal, D.A. (2000). Looking Forward and Looking Backward: Cognitive
and Experiential Search. Administrative Science Quarterly 45(1) 113–137.
[GLM01] Goldenberg, J., Libai, B. & Muller, E. (2001). Talk of the Network: A Complex Systems Look
at the Underlying Process of Word-of-Mouth. Marketing Letters 12(3) 211–233.
[GLM02] Goldenberg, J., Libai, B. & Muller, E. (2002). Riding the Saddle: How Cross-Market
Communications Can Create a Major Slump in Sales. Journal of Marketing 66(2) 1–16.
[JFK14] Johnson, S.L., Faraj, S. & Kudaravalli, Sri. (2014). Emergence of Power Laws in Online
Communities: The Role of Social Mechanisms and Preferential Attachment. MIS Quarterly
38(3) 795–808.
[KOJ07] Kwon, D., Oh, W. & Jeon, S. (2007). Broken Ties: The Impact of Organizational
Restructuring on the Stability of Information-Processing Networks. Journal of Management
Information Systems 24(1) 201–231.
[L97] Levinthal, D. (1997). Adaptation on Rugged Landscapes. Management Science 43(7) 934–950.
[LL96] Lomi, A. & Larsen, E.R. (1996). Interacting Locally and Evolving Globally: A Computational
Approach to the Dynamics of Organizational Populations. Academy of Management Journal
39(5) 1287–1321.
[LP07] Levinthal, D., & Posen, H. E. (2007). Myopia of Selection: Does Organizational Adaptation
Limit the Efficacy of Population Selection? Administrative Science Quarterly 52(4) 586–620.
[M81] McGrath, J.E. (1981) Dilemmatics: The Study of Research Choices and Dilemmas. American
Behavioral Scientist 52(2) 179-210.
[M91] March, J. (1991). Exploration and Exploitation in Organizational Learning. Organization
Science 2(1) 71–87.
[MZC06] Miller, K., Zhao, M. & Calantone, R. (2006). Adding Interpersonal Learning and Tacit
Knowledge to March's Exploration-Exploitation Model. Academy of Management Journal 49(4)
709–722.
[OJ07] Oh, W. & Jeon, S. (2007). Membership Herding and Network Dynamics in the Open-Source
Community: The Ising Perspective. Management Science 53(7) 1086–1101.
[RCA06] Ren, Y., Carley, K. & Argote, L. (2006). The Contingent Effects of Transactive Memory:
When Is It More Beneficial to Know What Others Know? Management Science 52(5) 671–
682.
[RK13] Ren, Y., & Kraut, R.E. (2013). Agent-based Modeling to Inform the Design of Multi-user
Systems. In J. S. Olson & W. Kellogg (eds.) Human Computer Interaction Ways of Knowing.
Springer: New York.
[RS03] Rivkin, J. & Siggelkow, N. (2003). Balancing Search and Stability: Interdependencies among
Elements of Organizational Design. Management Science 49(3) 290–311.
 

+ Recent posts