2016-02-15 Desperately Seeking Useful Reviews - 연세대학교 정보대학원 수업내용

텍스트 마이닝에서 User Review 분석
 
 아마존의 Helpfulness Index 0.6 이상 기준. 정확한 근거는 없을 수 있으나, 아마존 리뷰의 분포를 보았을 때, 0.6 이상이 많긴함.
 사용자가 Yes/No를 선택할 수 있음.
 rbind -> positive, negative 인지 학습을 시키면,  새로운 문장이 들어오면 학습 결과를 토대로 긍정, 부정을 추론 할 수 있음
 Term document matrix 가 기본.
  ex) 어떤 리뷰가 Helpful 하다고 판단된다고 할 때, 단어들의 반복 정도를 추산할 수 있음. 예를 들어, 특정 단어가 Helpfulness에 얼마나 영향을 미치는지 가중치를 판단할 수 있을 것임.
  ! 베뎃에 영향을 미치는 요인에 관한 연구가 가능하지 않을까
 의사결정트리

 R -> tm package에 불용어 처리 stopwords

 
이번 세미나의 연구는, 개별적 helpful한 리뷰를 찾아내는 연구임. 예를 들어, 로그인 하지 않았을 때랑 로그인 하고난 다음이랑 제공되는 Helpful Review가 달라질 수 있음.
 이번 연구 데이터셋은 2시간 정도 걸렸음.
 Trip Advisor의 경우는 유용하다고만 투표할 수 있음.
 Sentiment -> 긍정/부정
 Readavility -> 가독성.
 www.kaggle.com 데이터 분석을 하는 사람들의 성지. 기업들이 데이터를 올리고 가장 좋은 추천 시스템을 만드는 사람들에게 상금을 주는 방식. Yelp 데이터는 공개되어 있음. 데이터마이닝쪽 논문은 해외학회같은 경우에 데이터를 어디서 가져왔고 그 데이터가 어떤 것인지에 대해 공개를 함.  
 푸아송 리그레션? (Poisson regression)
 Sparsity < 0.99 (27만개의 단어, 17만개의 리뷰를 돌리려면 너무 오래걸림. 800번 이상 출현단어나 이런 것들에 대해 제약을 둠)
 
맹 개 발 yunho0130@gmail.com


## IBM 기술 인증 Badges


블록체인 개발

블록체인 필수지식

 블록체인 컨설팅

데이터 분석

프로젝트 설계

클라우드 컴퓨팅









## 프로젝트 (외부공개 가능한 것만)

## 강연 및 외부활동

## 논문 및 집필 활동
## 미디어 및 언론 보도


2016-01-07 구글 애드워즈 1일차

1. 접속. 캠페인 생성
 
2. 구글 adword의 장점. 도달률이 높다. 도움말이 잘되어 있다. (네이버, 다음은 광고주만 문의를 할 수 있는데, 구글은 광고 대행사도 문의를 받아준다.)
 통합플랫폼, 타겟팅, 글로벌 플랫폼
 계정번호만 말하면 대행사도 가능.
 
3. 구글 가격 정책 (퀴즈)
CPM(vCPM)이란? 픽셀의 50%가 1초 이상 노출되었을 때만 비용 지불. 
구글 검색결과 - 상단에 최대 3개, 기타 위치에 최대 8개
구글은 페이지 마다 입찰을 실시함.
모바일 광고의 입찰가를 PC입찰가보다 높이거나 낮출 수 있음. (비율)
품질평가 점수 1점이 최저, 10점이 최고점수 새 키워드는 품질평가점수 6으로 시작. (품질평가지수가 낮으면 입찰가가 높아진다)
 품질평가지수 기준 - 방문 페이지 퀄리티, 광고문안 사용자 검색어와 관련성, 사용자 클릭률
최대 CPC 입찰가는 30%까지 초과할 수 있음 (향상된 CPC입찰 선택시, 전환가능성이 높을 때, 자동으로)
광고그룹 하나에 50개의 광고 문안과 20,000개의 키워드를 넣을 수 있음.
광고를 수정할 때마다 광고는 자동으로 제출.
 
내용 입력란 1, 2는 각각 독립된 내용을 입력.
 
4. 반경 타겟팅

 
구글 마이비즈니스
 -> 구글 플러스 페이지라고 생각하면 됨. 비용 0로 검색 키워드 광고 가능. 오른쪽의 에이엔에이 스포츠 확인.
 

 
# Google 애드워즈 기초 인증과정
 
2개의 토픽 통과 해야 인증가능.
점수는 시험 응시일로 부터 12개월 동안만 유효함.
Google Partner 배지를 회사 웹사이트나 마케팅 자료에 사용 가능. (직원 중에 한 명이상이 받으면 인증이 가능)
시간 제한이 있는 문제 은행식 오픈북 테스트
뒤로 버튼이 없음. 시험 도중에 창 닫으면 하루 동안 응시 불가
120분이지만 1시간이면 가능.
시험응시
시험 학습 가이드
 
*기존의 미디어와 온라인 미디어.
 - 관심 있는 사용자 타겟팅 가능. 지출 금액 정할 수 있음. 실적 측정이 쉬움.
*광고 게재 순위를 결정하는 요인
 - 최대 입찰가, 품질평가점수, 광고 확장(부가정보 많이 넣은 거)
*품질평가점수
 - 예상 클릭률 (CTR), 광고의 관련성, 방문페이지의 만족도
* 일 예산을 입력하면 월 예산을 자동으로 계산함.
- 검색 네트워크 (display select 포함) : 디스플레이 광고와 검색 광고를 자동으로 반반으로.
- 검색 네트워크만: 구글 플레이스토어도 포함.
- 디스플레이 네트워크만: 동영상 광고를 포함하며, 유튜브가 여기에 포함된다. 광고주 키워드가 웹페이지의 콘텐츠와 일치하는 경우도 가능함. (문맥 타겟팅)
- 쇼핑: 키워드가 아닌 상품 목록을 등록하여 고객을 구매하도록 유도 (국내에는 아직 서비스가 되고 있지 않음)
- 유니버설 앱 캠페인: 앱을 홍보하려는 경우 적합. 
- 표준: 키워드 타겟팅.
- 모든기능: 광고 예약, 게재 방법, 고급 위치, 모바일 앱 확장, IP 제외 등 고급기능 사용(모든 기능으로만 시작하는 것이 가장 좋음)
- 디스플레이 캠페인 타겟팅 6가지를 일반적으로 떠올리는 데, 다른 캠페인도 있기 때문에 시험에서는 광고를 게재한다고 해석하는 것이 좋음.
 -- 타겟팅 종류: 키워드, 위치 및 언어, 기기, 디스플레이(특정 웹사이트를 방문한 사용자, 특정 그룹 등)
- 캠페인 언어와 인터페이스 언어가 일치할 때, 광고가 보여짐.
- 디스플레이 네트워크 CPC 클릭기준 CPM 조회기준 CPA 전환기준(앱설치등)

- 공유 라이브러리에서 입찰가 전략을 설정할 수 있음.
 -- 향상된 CPC 입찰 : 키워드 입찰가
 -- 타겟 검색 페이지 위치: 첫 페이지 또는 상단 게재위치에 광고
 -- 타겟 CPA : 타겟 CPA를 유지하면서 전환수 늘리기
 -- 경쟁 광고보다 높은 순위를 얻기 위한 타겟 노출 점유율 : 벤치마크 도메인
 -- 클릭 수 최대화: 자동 입찰가.
 -- 목표 광고 수익율(ROAS): 투자 수익 달성성
- 일 예산은 20%까지 초과할 수 있지만, 한 달 광고비는 20,000 x 30.4 원을 초과하지 않음.
- 유료 및 무료 검색결과 보고서: 광고만 나왔을 때, 자연검색결과만 나왔을 때, 광고 및 자연검색결과가 함께 나왔을 때의 결과에 따라 어떻게 수익이 연결되는지.
 -- 유료검색결과: 광고
 -- 무료검색결과: 자연검색
-입찰통계 보고서: 경쟁사 노출 점유율 등을 알 수 있음.
-검색어 보고서:키워드와 검색어는 다르다! 키워드는 광고주가 설정하는 것이고, 검색어는 유저가 입력한 것.
-투자수익 계산하기: 구글의 ROI 계산법이 좀 다름.  ROI = (매출-비용)/비용
 -- 리드 : 가망고객
-캠페인 최적화: 키워드 상태를 확인할 수 있음. 품질평가점수가 어느정도 이고 어떤 지표가 문제가 있는지 알 수 있는 페이지.
- 광고 그룹 : 로테이션을 시키기 위해

 
 
2016-01-07 빅데이터 분석 스쿨

입문용 강좌
 
Hadoop Ecosystem : 수집, 저장, 탐색/처리
Analytics - R, Mahout : 분석, 프리젠테이션
 
Scale up : 서버 자체 증강을 통한 처리능력 향상
Scale out : 서버 대수 증가를 통한 처리능력 향상
 
Gartner, 2013 데이터는 폭증(40%상승)하는데, IT 예산은 그대로(2.5%상승)
 
*YARN: Yet Another Resource Negotiator (리소스 관리 컴포넌트. 각 컴포넌트가 사양이 다를 때)
*Spark: 데이터 로딩 후, in-memory caching을 통한 반복적으로 연산하는 것에 강력함. (메모리에 데이터를 다 넣고 연산을 처리함) 그래서 머신러닝 쪽에서 많이 쓰임. 실시간 처리를 원하는 경우에도 쓰임.
 
* 텍스트마이닝: 텍스트에서 가치있는 정보를 캐냄
  1. Pattern Discovery : 탐색적인 Text 분석(용어들의 통계치 확인, 빈도등)
* 오피니언 마이닝
 - 배송은 느리지만, 제품은 이쁘고 좋네요 -> 이쁘다는 말
 - 제품은 이쁜데 배송이 느리네요 -> 느리다는 말. 이 차이를 분간하는 게 이슈임
* SNS 마이닝.
 - 관계를 분석. 어디가 빅 마우스냐?
 - 노드(사람)와 링크(관계)
 - Density 분석, Neighbor 분석, Centrality 분석, Clique 분석
* R
 - AT&T에서 기원한 언어
 - 다양한 분석 패키지가 발달함.
 - R은 가시화 하는 패키지가 많음.

 

ATAGUiSE m or. oceansvncll impetus Stack1Gl , Cross Infrastructure / Analytics Google '&roson vmware ORACLE TERADATA 1 {programmabilitv Framework ource: _Open Sourqe Pgojegts C.gec4ucu?-aXiQLL Real. Time Norkflow 11 Storm '/>
2015
 
 
 

+ Recent posts