2016-01-07 빅데이터 분석 스쿨
입문용 강좌
Hadoop Ecosystem : 수집, 저장, 탐색/처리
Analytics - R, Mahout : 분석, 프리젠테이션
Scale up : 서버 자체 증강을 통한 처리능력 향상
Scale out : 서버 대수 증가를 통한 처리능력 향상
Gartner, 2013 데이터는 폭증(40%상승)하는데, IT 예산은 그대로(2.5%상승)
*YARN: Yet Another Resource Negotiator (리소스 관리 컴포넌트. 각 컴포넌트가 사양이 다를 때)
*Spark: 데이터 로딩 후, in-memory caching을 통한 반복적으로 연산하는 것에 강력함. (메모리에 데이터를 다 넣고 연산을 처리함) 그래서 머신러닝 쪽에서 많이 쓰임. 실시간 처리를 원하는 경우에도 쓰임.
* 텍스트마이닝: 텍스트에서 가치있는 정보를 캐냄
- Pattern Discovery : 탐색적인 Text 분석(용어들의 통계치 확인, 빈도등)
* 오피니언 마이닝
- 배송은 느리지만, 제품은 이쁘고 좋네요 -> 이쁘다는 말
- 제품은 이쁜데 배송이 느리네요 -> 느리다는 말. 이 차이를 분간하는 게 이슈임
* SNS 마이닝.
- 관계를 분석. 어디가 빅 마우스냐?
- 노드(사람)와 링크(관계)
- Density 분석, Neighbor 분석, Centrality 분석, Clique 분석
* R
- AT&T에서 기원한 언어
- 다양한 분석 패키지가 발달함.
- R은 가시화 하는 패키지가 많음.
2015
'Data Science 데이터 과학' 카테고리의 다른 글
2016-04-02 Business Models 빅데이터 CASE 요약 - 연세대학교 정보대학원 수업내용 (0) | 2018.05.11 |
---|---|
2016-01-07 구글 애드워즈 1일차 (0) | 2018.04.28 |
2015-09-23 데이터 베이스 관리 - 연세대학교 정보대학원 수업내용 (0) | 2018.04.26 |
2015-09-15 데이터 베이스 관리 - 연세대학교 정보대학원 수업내용 (0) | 2018.04.16 |
2015-05-30 [PLS 통계] 나름 정리한 것 - 연세대학교 정보대학원 수업내용 (1) | 2018.04.14 |