2016-01-07 빅데이터 분석 스쿨

입문용 강좌
 
Hadoop Ecosystem : 수집, 저장, 탐색/처리
Analytics - R, Mahout : 분석, 프리젠테이션
 
Scale up : 서버 자체 증강을 통한 처리능력 향상
Scale out : 서버 대수 증가를 통한 처리능력 향상
 
Gartner, 2013 데이터는 폭증(40%상승)하는데, IT 예산은 그대로(2.5%상승)
 
*YARN: Yet Another Resource Negotiator (리소스 관리 컴포넌트. 각 컴포넌트가 사양이 다를 때)
*Spark: 데이터 로딩 후, in-memory caching을 통한 반복적으로 연산하는 것에 강력함. (메모리에 데이터를 다 넣고 연산을 처리함) 그래서 머신러닝 쪽에서 많이 쓰임. 실시간 처리를 원하는 경우에도 쓰임.
 
* 텍스트마이닝: 텍스트에서 가치있는 정보를 캐냄
  1. Pattern Discovery : 탐색적인 Text 분석(용어들의 통계치 확인, 빈도등)
* 오피니언 마이닝
 - 배송은 느리지만, 제품은 이쁘고 좋네요 -> 이쁘다는 말
 - 제품은 이쁜데 배송이 느리네요 -> 느리다는 말. 이 차이를 분간하는 게 이슈임
* SNS 마이닝.
 - 관계를 분석. 어디가 빅 마우스냐?
 - 노드(사람)와 링크(관계)
 - Density 분석, Neighbor 분석, Centrality 분석, Clique 분석
* R
 - AT&T에서 기원한 언어
 - 다양한 분석 패키지가 발달함.
 - R은 가시화 하는 패키지가 많음.

 

ATAGUiSE m or. oceansvncll impetus Stack1Gl , Cross Infrastructure / Analytics Google '&roson vmware ORACLE TERADATA 1 {programmabilitv Framework ource: _Open Sourqe Pgojegts C.gec4ucu?-aXiQLL Real. Time Norkflow 11 Storm '/>
2015
 
 
 

+ Recent posts