2016-04-11 빅데이터 분석 기법의 이해와 활용 - 연세대학교 정보대학원 수업내용

박스플롯 해석방법

 

 
선형 회귀.
RMSE -> 추천선호도
 
R제곱은 독립변수가 값이 커지는 성질이 있음. 수정된 R제곱은 이걸 보정해주는 것.

 

종속변수가 counting이면 푸아송 알고리즘.
 
데이터 탐색
 -> 분류하는 문제.
결측값을 해당 컬럼의 중앙값이나 평균값으로 대체해서 계산할 수도 있음. 가장 가까운 이웃 K개의 값까지의 거리를 고려한 가중 평균치로 대체가능.
 
KNN vs 콜라보레이티브 필터링 차이 (Collaborative filtering)
Collaborative filtering이 알고리즘 피어슨 상관계수 사용하긴함. KNN의 일종이라고 볼 수 있음.
하지만 조금 다른 방식으로 계산
 

 
정밀도 Precision: True라고 말한 것 중에 정말 True인 비율
재현율 Recall : 실제 T인 것들 중에 예측도 T인 비율 -> 이걸 높이려면 다 T라고 하면 된다. 그렇게 되면 정밀도가 떨어짐.
 
SPSS에서도 코딩해서 짤 수 있는 기능이 있음. 그 기능을 활용해서 R코드를 불러와서 활용할 수도 있음. 하지만 그냥 R쓰면 됨. 반면 SAS는 R과 담을 쌓고 있음. SAS에 있는 기능이면 그걸 쓰면 된다. 그게 제일 좋긴함. (기능이 존재한다면 SAS를 쓰길! 미국 평균 연봉도 SAS가 높음)
 
공공데이터를 공개한걸 가지고 앱을 만들거나 사업을 하는 사람들이 있음.
실제 사업하는 사람들은 어떤 데이터로 하는지.
 
10000개 이하로 가지고 있는 경우에 돌릴 수 있음.
 
R에 Recommender lab이라는 패키지가 있음. Collaborative filtering 이라는 알고리즘 있음.
<R을 활용한 추천시스템> 임일 연세대 경영대 교수님
 
크롤링 하려고 하는데, 클래스 이름이 명확하지 않으면 xpath를 사용해서 해결할 수 있는데, 내용이 좀 어려움.
 
 
 

+ Recent posts