2016-03-29 정량적데이터 분석 - 연세대학교 정보대학원 수업내용

 

멀티 티멘셔널 컨스트럭트도 사용하는 경우가 많음.

User Empowerment
 
 
키워드를 이용해서 measurement  아이템들을 선정하게 되는 것이죠.

 
쉽게 말하면 이거에요. 새로운 변수를 만들었어요. 기존 변수랑 다른 거겠죠. definition을 정의 해요. 그리고 거기에서 키워드를 뽑아내는 것이죠. 거기에 첫번째로는 expert 인터뷰를 해요. 거기에 동의하는 부분 그렇지 않은 부분 이런 것을 하면 어느정도 필터링이 이루어지겠죠.
 
그 다음에는 아이템 소팅이에요. 아이템들을 나누어주고. 변수명과 definition을 주고 하나씩 매핑해보라. 이름만 써줘요. 5명의 judge가 있다. 그러면 얼마나 잘 평가했는지 체크를 함. 뭔가 하나의 아이템에 대해 좀 다르다 싶으면 해당 변수를 수정 보완할 수 있겠죠.

상대방이 충분하게 이해될 수 있도록. A응답자와 B응답자가 각각 똑같이 해석할 수 있는 서베이 항목.
 
3단계. 일반적인 준비단계임. 변수에 대한 definition 준비. 포텐셜 아이템 (센텐스) 기본적으로 각 변수별로 미니멈 4개의 센텐스가 있어야겠죠. 첫번째 단계는 전문가 인터뷰. 과연 이 변수에 대한 이 아이템이 적정한가에 대한 전문가 인터뷰가 이루어짐. 수정된 걸 가지고 아이템 솔팅 단계를 갈 수 있어요. 대학원생으로 내려가는 것이죠. 칠판 같은 것을 이용해도 되고요. 단어장을 이용해요. 측정 항목이 제대로 동의를 받지 못할 수도 있겠죠. 빼버리던지 수정하던지 해야겠죠. 준비가 되면, 세번째 단계는 실제 응답자들. 사용할 사람들. 페이스북 실제 사용자들. O2O 실제 사용자들. 5~6명 정도 샘플링 합니다. 완전한 질문지를 주고 컨텍스트에 어색한 점이 없는지 물어봅니다. 수정의 기회를 한 번더 가질 수 있음. 이 3가지 단계를 거치면 더 좋은 측정항목이 나오겠죠.

측정항목을 어디서 가져오는지.
 

기술적 지원이면 이 변수를 쓰고 싶어요. 그러면. 기존의 정의와 본인이 개정한(propose한) 정의를 가지고 아래처럼 표를 만들어서 전문가에게 검증 받으세요. 그렇지 않으면 해당 변수에 대해서는 검증을 받지 않겠다는 의미가 되기 때문에.

이걸 가지고 전문가 인터뷰를 할 수 있어요. 박사과정 정도라도. 레퍼런스를 어디에서 가져왔는지가 굉장히 중요한 이슈가 될 수도 있어요. 왜냐하면 4가지 아이템 중에서 어떤 아이템을 빼야하는 이슈가 생길 수 있는데, 그 기준이 해당 레퍼런스가 될 수 있어요. 한글 번역이 나와야 함. 전문가 인터뷰시, 이것이 정말 한글로 제대로 번역이 되었는지 피드백을 받을 수 있음.

 

예를 들면 user satisfaction을 measure 한다면, 질문항목을 단어장에 하나씩 씁니다. 그러면 질문 항목이 50개정도 된다면 50장의 단어장이 필요하겠죠. 그 다음에 judge를 invite하고 (미니멈 3명) 각 변수에 대한 변수명과 정의를 알려줘요. 그리고. 단어장/포스트잇을 이용해서 하나씩 붙여라 이런식으로도 할 수 있겠죠.  

아이템 소팅은 Labeled와 Unlabeled 두 가지가 있어요. 언레이블드는 단순히 설문 문항만 주고 그룹화 해봐라 하는거에요. 언레이블드는 그룹핑만 하는 것임. 그래서 어렵고. 일반적으로는 Labeled만 해도 괜찮은 경우가 많아요. 

해당 결과를 표로 나타내면 아래와 같음

여기에서 Agreement(Hit Rate)가 중요함 미니멈 70% 가능하면 80% 이상 높이는 것이 좋음. 

Structured가 98% 이상으로 나온 것으로 labeled가 더 높은 hit rate을 나타냄.
 

예시.

 
Common method bias 질문의 응답자가 매번 같은 방식의 측정 방식을 사용하면 응답이 지루해지기 때문에 불성실한 응답을 할 수 있기 때문에 중간에 측정 방식을 바꾸는 것이 좋음. Reverse를 사용하는 것도 좋은 방법.

기본적으로 하나의 변수당 미니멈 4개의 질문. 모델이 조금만 복잡해지면 설문 문항이 많아지죠. 항상 응답자 입장에서. 10분? 아니죠. 10분까지는 못함. 내가 과연 몇 분이나 견딜 수 있나. 3~5분. 시간이 많이 걸리고 데이터를 많이 모을수도 있죠. 그러나 그러면 데이터 Quality가 떨어져요. 하나의 응답에 보통 5~10초. 딱 좋은 숫자는 60개. 그나마 응답자가 정신을 집중해서 할 수 있는. 변수에 15개를 전부 쓸 수가 없음. 인구통계학적 특성에 대한 정보를 받는다고 생각하면 10개정도.

아이템 소팅을 정말 strict 하게 제대로 했으면 설문항목의 순서를 막 섞어도 괜찮을 수 있어요. 하지만 현실적으로는 그렇지 않죠. 사람들이 사실 응답자들이 헷갈려요. 이게 무슨 의미인지. Highly collerated 된 것이죠. 아이템 소팅에서 보이는 것이죠. 아이템 소팅이 깨끗하지 못한데 해야겠다. 그러면 변수끼리 묶습니다. 변수명은 보여주지말고 그룹핑을 해서 보여주는 것이죠. 아이템 소팅에서 highly collerated된 것은 질문지에서 멀리 떨어뜨려요. 그래서 사람들이 그 사이에 잊어먹어요. ㅋㅋㅋㅋ 그래서 좀 달라질 수 있어요. Definition을 보았을 때, 분명히 연관관계가 높을 것 같다고 느껴지는 것이 있으면 멀리 떨어뜨려놓아야 해요. 가능한 멀리. 첫 페이지나 끝 페이지.
 
가능한 Top-Level 질문에서 Specific한 질문으로 내려가는 것이 좋고. 개인정보는 맨 나중에. 사람들이 각 그룹의 첫 번째 질문을 대표성 있는 질문이라고 생각함. 각 그룹(4개)에서도 맨 첫번째 변수를 제일 대표성 있는 질문으로 놓아야 함.
 
쓰레기 데이터를 모으면 논문의 퀄리티가 안좋을 수 밖에 없음. 질문 시간을 짧게, 질문 숫자를 적게 해야하는데, item sorting을 잘하면 이게 가능함.
 
하나 더 중요한 것. 인센티브.
3가지 : 질문수, 응답수, 인센티브.
 
인센티브 팁.
5천원. 오프라인.
회사데이터? 입장을 생각해 보아야 함. 만원.
로또. 천원임. ㅋㅋ 연구비 처리가 힘듬 ㅋㅋ
 
미니멈 200명.
 

 
타겟 샘플링 어떻게?? 사용의도. Initial intension이 있을 수 있겠고, Re-use intension이 있을 수 있겠죠. 이걸 명확하게 해야함. potential이랑 재구매는 다름. 이 서비스를 한 번도 써보지 않은 사람들이랑 이 서비스를 이미 사용한 사람에 대한 이슈는 전혀 다른 것이 될 수 있어요. Re-use나 repeat use에 대해서는 만족도가 적용이 되는 것인데, 한 번도 사용해보지 않은 사람들에 대해서는 그게 이어지지 못하는 것이죠. 때문에 타겟 papulation을 잘 지정해야해요.

대표성이 있느냐.
알라딘, 실제 알라딘 고객인가. 알라딘 결과가 다른 온라인 서점에 적용될 수 있는지 Generalization. 다른 온라인 서점의 고객들과 얼마나 유사성이 있는가. 1) 수집된 1,000명의 고객과 기존의 알라딘 고객군들에 대한 비교 2) 전체 온라인 쇼핑몰을 대표하는 고객 특성에 대한 데이터와의 비교.  Extream하게 다르지 않다. 이런걸 보여야함.

Convenience Sampling. 우선 데이터를 구하는게 어렵다면, 편의 샘플링을 하기도함.
리샘플링. 일단 많이 모아두고, 일반적인 고객 특성에 맞도록 샘플링을 다시 하는 것. SPSS에 있음.

 

Sample Size 적어도 100. 중간에 mediator가 있다. PLS나 Lisrel이라고 하면 200개 필요. 리서치 주제에 따라 다름. Unit of Analysis에 따라서도 다름. 조직은 200 어려움.
 
moderator가 있는 경우가 있음. 그럼 200x2~3개 정도 샘플을 확보해야함.  Survey로는 사실 잘 안잡혀요. 1. 샘플 사이즈를 크게 하는 거에요. 그러면 잡힐 가능성이 높아짐. 2. 스케일을 세부적으로 쪼개는거에요. 더 구간을 늘리면 잡힐 가능성이 높아져요. (7점 척도를 9점이나 11점으로)
 
Statistical Power 체크해야함.
 
Stage 1 ~ 2. 사이에 재응답 비율. 실제 사이트에 배너를 거는거. 1 Pages Proposal 직접 보내야 하는거. 김희웅 교수님은 마케팅 팀에 직접 콜드콜 했음 ㄷㄷ

 
마지막 3일에 응답한 사람들의 특징이 Non-response Bias라고 가정하고 가는 것이 일반적. 그럼 문제가 있다고 확인할 수 있음.

 

 

 

40 Frontline em 10 Middle m Malta er Frequency 130 71 63 117 21 106 84 11 201 Percentage 647 '/>
변수는 3글자. 모음말고 자음씀. 본인이 이해할 수 있는거.
 
Sample이 작을 경우는 Power Test를 진행.
 

 

 

여러가지 체크해야할 것들이 있는데, Mediator를 체크해야해요. Independent variable 을 dependent variable

Med가 없으면 SPSS로 감.
Med 있으면 Smart-PLS, LISREL로 감. moderator는 상관없음.
 

 

테스트 하는 순서. 6개의 순서.

응답자의 평균 연령이나 이런걸 측정하려면 나이를 구간이 아니라 직접 입력 받는 방식으로 하는 게 좋음. 항상 좋은 것은 숫자를 이용하는 것이 좋음.
 

 

일반적으로 구체적인 것이 더 추천되는 방식이지만 구체적으로 나눠놨더니 편향된 표본이 드러나는 경우 포괄적인 방식으로 응답자를 나타낼 수 있음.
 
 
 
 
 
 
 
 
 
 
 

+ Recent posts