임백준 저자와 함께하는 데이터과학자를 꿈꾸는 히치하이커를 위한 안내서

1. 데이터 과학자란
• 데이터 분석가 : SQL로 데이터를 수집하는 사람들.
• 데이터엔지니어 : 데이터를 A지점에서 B지점으로 옮기는 사람들.
• 통계학자 : 통계를 가지고 데이터를 분석.
• 머신러닝 엔지니어 : 머신러닝을 하는 소프트웨어 엔지니어.
• 데이터 과학자란 위의 역할의 부분들을 공통분모로 갖고 있으면서, 데이터 문제를 갖고 해결할 수 있는 방법, 아이디어를 가지고 있는 사람.
2. 데이터 과학의 난제들.
• Data Scarcity : 쓸만한 데이터가 없다. 전세계적으로 10%정도의 데이터만 사용하고 있지만, 실제로 사용할 수 있는데이터는 부족하다.
• Cold Start Problem : 새로운 상품이나, 새로 등록한 사람에게 적용할 수 있는 데이터가 없다. 
• 비정형데이터 : 코드나 구조를 갖는 데이터가 아니라, 자연어나 공통적인 의미를 뽑아내거나 분석이 어려운 데이터들이 많다.
3. Technology Stack : 데이터 과학에서는 툴은 그저 툴이 뿐이다. 하지만 표준화할 필요는 있다. 
• Language : Python
• Library : Tensorflow, Scikit-learn, CUDA, Keras
• Editor : Pycharm
• Data Engineering : Apache Spark
4. 기본적인 통계에 대한 이해는 필요하다. 
• 추천 : Head First Statistics: 실생활 예제로 배우는 정말 쉬운 통계 이야기
5. 기술개념 (깊게 이해하지 않아도 소통이 가능한 정도는 알아둘 것.)
• 평균분산
• 표준분포
• 표준편차
• P value
• Precision / Recall
• F-score
• Regression
• Overfitting
• Gradient Descent 
• Stochastic
• Cost/Loss Function
• Back Propagation
• Drop out

6. Deep Learning이 만능열쇠다? 딥러닝의 문제점 
• Data hungry : 필요로 하는 결과를 위해서 데이터를 무지 필요로 함.
• 예측이나 답에 대해 도출한 방법에 대한 설명을 하지 못한다.
• Uncertainty : 불확실성을 제대로 처리할 수 없다. 어느정도 가능성을 가지고 얘기하는 지 알 수 없다. (예를 들면, 몇 % 확률로 암을 진단하는지.)
• One shot learning, Transfer learning,,,Bayesian Probability - 불확실성을 다루는 통계학
• Incremental Learning
• Neuroevolution
7. 데이터분석을 수행할 때 중요한 것들.
• Data curation
• Feature Engineering (Labeling), Feature generation
8. 데이터과학자가 갖어야 할 기술
• 프로그래밍
• 통계학
• 머신러닝
• 선형대수 (행렬, 역행렬,,,,)
• 지저분한 데이터를 다루는 능력. (대부분의 실제 데이터는 지저분하다. Kaggle에서 제공하는 데이터처럼 깔끔하지 않다.)
• 의사소통 능력 - 좋은 분석가는 스토리가 있다 (커뮤니케이션 능력)
9. 데이터과학자가 되기 위한 공부
• Andrew Ng 교수의 Cosera 강의
• 추천 Youtube - 3 Blue 1 Brown
• 추천 도서 : 빅데이터가 만드는 세상
• 추천 도서 : Hands on machine learning
• 추천 도서 : Hands-On Machine Learning with Scikit-Learn and TensorFlow
#임백준 #한빛미디어 #데이터과학

+ Recent posts