2016-01-07 빅데이터 분석 스쿨

2018. 4. 28. 17:32

입문용 강좌

Hadoop Ecosystem : 수집, 저장, 탐색/처리

Analytics - R, Mahout : 분석, 프리젠테이션

Scale up : 서버 자체 증강을 통한 처리능력 향상

Scale out : 서버 대수 증가를 통한 처리능력 향상

Gartner, 2013 데이터는 폭증(40%상승)하는데, IT 예산은 그대로(2.5%상승)

*YARN: Yet Another Resource Negotiator (리소스 관리 컴포넌트. 각 컴포넌트가 사양이 다를 때)

*Spark: 데이터 로딩 후, in-memory caching을 통한 반복적으로 연산하는 것에 강력함. (메모리에 데이터를 다 넣고 연산을 처리함) 그래서 머신러닝 쪽에서 많이 쓰임. 실시간 처리를 원하는 경우에도 쓰임.

* 텍스트마이닝: 텍스트에서 가치있는 정보를 캐냄

Pattern Discovery : 탐색적인 Text 분석(용어들의 통계치 확인, 빈도등)

* 오피니언 마이닝

- 배송은 느리지만, 제품은 이쁘고 좋네요 -> 이쁘다는 말

- 제품은 이쁜데 배송이 느리네요 -> 느리다는 말. 이 차이를 분간하는 게 이슈임

* SNS 마이닝.

- 관계를 분석. 어디가 빅 마우스냐?

- 노드(사람)와 링크(관계)

- Density 분석, Neighbor 분석, Centrality 분석, Clique 분석

* R

- AT&T에서 기원한 언어

- 다양한 분석 패키지가 발달함.

- R은 가시화 하는 패키지가 많음.

ATAGUiSE m or. oceansvncll impetus Stack1Gl , Cross Infrastructure / Analytics Google '&roson vmware ORACLE TERADATA 1 {programmabilitv Framework ource: _Open Sourqe Pgojegts C.gec4ucu?-aXiQLL Real. Time Norkflow 11 Storm '/>

2015

저작자표시 비영리 동일조건 (새창열림)

'Data Science 데이터 과학' 카테고리의 다른 글

2016-04-02 Business Models 빅데이터 CASE 요약 - 연세대학교 정보대학원 수업내용 (0)	2018.05.11
2016-01-07 구글 애드워즈 1일차 (0)	2018.04.28
2015-09-23 데이터 베이스 관리 - 연세대학교 정보대학원 수업내용 (0)	2018.04.26
2015-09-15 데이터 베이스 관리 - 연세대학교 정보대학원 수업내용 (0)	2018.04.16
2015-05-30 [PLS 통계] 나름 정리한 것 - 연세대학교 정보대학원 수업내용 (1)	2018.04.14

맹개발의 기술 블로그

2016-01-07 빅데이터 분석 스쿨

'Data Science 데이터 과학' 카테고리의 다른 글

+ Recent posts

티스토리툴바