2016-03-08 정량적 데이터 분석 - 연세대학교 정보대학원 수업내용

정량적 데이터 방법. 행동연구.
선수과목: 사회과학 연구방법론.
 - 학사
 - 석사
 - 박사
졸업 논문을 효율적으로 체계적으로 끝낼 수 있도록 돕는게 이 과목의 목적.
 
행동 연구에 필요한 연구방법론을 이 수업시간에 배울 것.
과제 5개. 각각 10%. Term Project: 40% (개별 프로젝트를 원칙으로) 실제 데이터를 수집해야함. 데이터 수집 필요. 처음부터 끝까지 리서치 페이퍼를 만들어야 함.
 
Subjective 자료만 써서 논문을 써서 비평을 많이 받음. 그래서 Objective 자료를 활용해서 결과를 내기도 함.
 
Positivist perspective
 - Experiment
 - Survey
Interpretivist perspective
 - Case analysis
 
Quantitative
Qualitative
 
Causal Research : 이론을 만들어 내고 검증하는 것.
Exploratory Research : 탐색적 연구. 머리속에 아무런 프레임 워크가 없이 사람들에게 인터뷰를 함. 주로 인터뷰 기반의 리서치.

당신은 왜 다른 사람들과 지식을 공유합니까? 인터뷰를 하면 팩트들이 나왔겠죠. 이걸 가지고 모델을 만들다던가 원인과 결과의 모델로 만들어 내는겁니다.
Mixed Method가 많이 나옵니다. 두 가지 방법을 섞어서 하는 겁니다.
기존 문헌말고 Causal Research 하는 방법은? 기존 문헌에서 변수를 찾아내는 건 B급 저널에서 많이 나오는 방법이죠. A급 저널에서는 그렇지 않아요.
Descriptive Research와 Causal Research는 전혀 달라요. 가설간의 관계가 Causal Research 에선 반드시 나옴. 이거 구분을 잘해야함. 무슨 Theory 관련된 이슈가 있지? 이런걸 잘 생각해봐야해요. Descriptive Research 는 전부 숫자로 되어 있어요. 단순한 correlation 관계인지 causal 관계인지 명확하지 않아요. 그게 연구가 아니라는 이야기는 아니지만, 관점이 다르다는 거죠. 본 연구에서는 Causal Research에 초점을 맞춰서 진행할 것임.
 
Causal 의 4가지 요구조건

원인과 결과에 해당하는 것들을 반드시 유의하고 관계를 만들어야 함.
 
Experiment Design(실험디자인) - 외부 요인들을 영향을 덜 받게 컨트롤 해서 측정하는 거. 장점은 외부 조건을 차단. 단점은 실제 상황과 괴리.
변수의 갯수가 적은거는 Experiment 가 적합.
 
특별한 이유가 없는한 개별로 프로젝트 진행.

 
 - 일단 앱을 깔게 하자. adaption
 - 어떻게 하면 사람들이 계속 쓰게 하는가 Continous
 - 구매를 하도록
그럼 어떤게 가장 중요한가?
 
비즈니스 적으로 큰 의미를 지니거나 사회적으로 크게 바꿀 수 있는 토픽.
  1. 제시간에 졸업할 수 있는 주제를 선택하셔야 해요.
Theory oriented research vs Literature oriented research
 
논문을 평가하는 기준 4가지

New 가 정말 중요함. TAM으로 쓰지 말라고 하는데, 기본적으로 기존 연구에 대비해 뭐가 다른지 설명할 수 있어야함.
Interesting 어떤 의의를 지니는가. Relevance 실질적으로 얼마나 주는가. Timeliness 지금 과연 그게 중요한 이슈인가. 그리고 박사 과정의 경우는, 트렌드가 과연 얼마나 오래갈 것인가도 생각해봐야함. 논문 평가를 들어갔는데, 수정 후 재심사 까지 최대 3년까지 걸릴 수 있는데 3년 뒤에 해당 내용이 제대로 반영이 안될 수도 있음.
Presentation 논문이 잘 서술되었는가. Case Study 같은 경우에 글을 잘 써야함.
Correctness 방법론이나 이런게 잘 적용되었는가.
 
Introduction이 중요함. 정말. 평균 탑 저널에 가는건 26번 수정.
 
새로운 변수를 제시. -> 기존 연구와 어떻게 다른지 설명을 해야함.
Support 된 변수들, 기존 문헌에서 가져온 경우 unique한 finding은 무엇인지.

비즈니스 리처시 흐름
 

 
Phenomenon : 현상과 관련된 정보 수집이 먼저. 뉴스, 리포트 등.
아카데미 리서치는 좁고 깊게 들어가야 함. 저널이나 컨퍼런스 보면 call for paper를 보면 가장 쉽게 Topic을 볼 수 있음. 어떤 분야에서 어떤 페이퍼들을 받고 있는지를 보면 좋음.
논문 쓰는 데에 가장 시간이 오래 걸리는 것들 Topic Selection, Data collection, Paper work
 
 
2016-03-07 빅데이터 분석 기법의 이해와 활용  - 연세대학교 정보대학원 수업내용

•빅 데이터(big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다
(위키피디어)
 
1기가 이상의 데이터는 R에서 읽을 수 있음.
 
사실 SAS가 더 좋은거 같음.
단, 가격이 비싸고, 해당 기능외에는 사용할 수 없음. (한 카피당 5000만원)
 
R커뮤니티 (각종 패키지 )
 
TaskView를 누르면 패키지랑 설명을 알 수 있음음
 
* Rpart 의사결정 나무 패키지
 
# 설치하고
install.packages(rpart)
# 설치된거 부르기
library(rpart)
 

 

Rstudio 자동 줄 바꿈 설정
 
R 조건문

 
Barplot
평균 변수간 차이만 찾아가면 되는 부분.
 
Q4.
Sapply 사용
Barplot
 
제외된 챕터
 - 병렬처리 항목
  Do pararel
  foreach
 - SQL관련
  MySQL과 DB와 연결
  SQLdf 패키지.
데이터 프레임이 SQL문장대로 결과처리해서 알려줌.
 
SQL로 해서 해봐야지.
 
 
 
2016-03-03 SAD - 연세대학교 정보대학원 수업내용

교재 7판
사전 리딩을 잘 읽어올 것. 절대 결석 하지 말 것.
15명 - 3명 1팀, 적으면 2명이 1팀.
 

기본적인 이야기만 하자고. 정보를 주고 업무를 대신 처리해주지. 이전에 수강신청하고 하면 종이로 쓰잖아요. 교학과에 내면 통계내고 그러잖아요. 수업시간표 내고 그러죠. 요새 시스템으로 하면 정보 시스템으로 처리가 되는 것이죠. 결과적으로 정보를 준다.

그런데 이 정보가. 회사에서 필요한 정보가. 경영 계층에 따라 필요한 정보의 계층이 다르다. 경영 계층의 삼각형. 밑이 운영 통제층. 경영 통제, 전략 통제. 어떻게 달라요? 김진동씨 이야기 처럼, 중요한 포인트 중에 하나인데, 중간관리자가 하는 일을 보면, 정보 취합해서 위로 올려주는 일을 많이 해요. 전달하는 역할을 많이 하죠. 중간 계층이. 부장들은 안그러죠. 비교를 해보죠. 이게 좀 안팔리네. 이런식. 아래쪽에서는 정말 정확해야해요. 몇 전 단위까지(원이 아니라) 정확해야 해요. 그런데 위쪽은 그렇지 않죠. 기간도 달라지고 금액 단위도 달라지고. 덜팔리면 프로모션을 하던가 조달을 하건 의사결정을 하겠지. 그 위에를 생각해봐. 전무 부회장 사장. 이런 사람들은 이걸 신경 안쓰죠. 매일 매일 매출이 어떤가 이런건 부장들이나 신경쓰는거지 임원들은 신경 안쓰죠. 임원들은 어떤 의사결정을 하죠? (여학생: 장기적인 의사결정을 할 것 같습니다.) 그렇죠. 신제품을 런칭할 것인가. 그런 것들을 하겠죠. 이런 사람들이 그럼 어떻게 다르죠. 지현? 이지현: 가공된 정도가 다를 것 같아요. 중간관리층은 주/월/분기 이렇게 보겠죠. 맨 위는 6개월, 1년, 10년 이렇게 보겠죠. 또 뭐가 다를까? (스마트폰을 쥐며) 뭐가 필요할까요. 향후 이후에 기술 추세에 대해 조사해서 알아봐. 시장 상황을 기술 추세도 봐야하고. 이런 것들이 기업 외부에서 오는 정보에요. 봐야 하는 기간도 굉장히 긴 거고. (오퍼레이션 쪽을 가르키며) 굉장히 정확하게 봐야 하고. 그렇죠. 각각의 경영계층에서 요구하는 정보의 특성이 다른거에요.

 
정보 시스템의 산물이 정보인데 정보가 다르다면 내부가 달라야겠지. 예를 들어서, 데이 투 데이 오퍼레이션을 해야 하는 계층. 데이터 베이스에서 검색을 하려고 하면 건별로 검색을 해요. 3/3일에 김동욱이라는 고객이 어떤 걸 샀느냐 보려면 딱 물고 봐야 해요. 시스템에서 아주 구체적으로 촥 하고 물고와야 해요. DB에서 어떤걸 봐야할까? 부장님들이. 특정 제품이 얼마나 팔렸는지에 대한 데이터. 쿼리가 들어갈 때 건드리는 레코드의 숫자가 달라져요. 그 많은 데이터를 물고와서 난도질 (slidation)을 하는데, 검색해야 하는 데이터의 양이 많아지면서 검색 쿼리의 양이 많아지죠. 중간 관리자가 봐야 하는 시스템의 특성하고 데이 투 데이로 보는 시스템의 특성하고 전혀 달라지죠. 아까 얘기한 것 중에 중요한 차이점이 임원들은 외부 데이터를 봐야 하죠. 네트웍으로 외부 데이터를 계속 검색해야 해요. 신규 제품을 출시하려면 특허DB나 이런 것을을 찾아봐야 하는 니즈가 있는 것이죠.

 
그래서 이 각각의 경영 계층의 필요한 정보가 달라요. 맨 밑에 있는 걸 거래처리 시스템 중간 관리자가 쓰는 걸 의사 지원 시스템, 전문가 시스템, 관리 정보 시스템이라고 하고, 임원들이 쓰는 걸 중역 정보 시스템이라고 하죠. 각각의 시스템이 다르죠. 우리가 배우는 것은 거래처리 시스템을 배웁니다. TPS 구체적으로 얘네들하고 어떻게 다른지에 대해 배워보자고요.

S - 임원진, T - 중간관리자, O - 현업직원
 

거래처리 시스템이 복잡한 이유가 뭘까요? // 김진동: 비즈니스가 복잡해졌기 때문에…. // 그래요. 옛날하고 달라요. 첫 번째로, 거래가 발생하면 독립적인게 아니라 관련된 기능이 너무 많아요.

 업무가 다 연관되어 있죠. 물건을 팔아도 현금 보유 정도가 늘어나야 해요. 우리 수강신청 어떻게 해요? 우리는 학점당 수업료가 다른가요? 미국은 달라요. 여긴 뭐 좋네요 ㅎㅎ. 미국 시스템 같은 경우 학생마다 크레딧 내는 시스템과 연동이 되어야 수강신청 시스템이 되는거죠. 복잡해 졌어요. 학교 등록금 카드로 할 수 있어요? 카드로 했는데 할부로 되면 어떻게 되는거죠? 그리고 요즘에 모바일로 가능한가요? 채널도 많아졌어요. 복잡해진거죠. 내부적으로 거래처리 시스템을 보면 굉장히 복잡합니다. 다른 거래 처리 시스템과 연결되어 있고, 그러니까 저게 의미하는 바가 무엇이냐면, 플래닝이 굉장히 중요하겠죠. 좀 더 자세하게 이야기 하자면, 분석이 무지무지하게 중요한 것이야. 시스템 개발하는 것 가지고 건물 짓거나 도시 짓는거에 비유를 많이하죠. 요즘 스마트 시티 관련해서 많이하죠 ㅎㅎ (지현 웃음 ㅎㅎ) 건물 하나 올린다고 생각해봐요. 기초공사하고 철근만 올리면 되요? 전기 배선도. 블루 프린트라고 하나? 청사진을 잘 그려야 해요. 잘 못하면 전기선이 벽을 뚫고 지나가요. ㅎㅎ 복잡하니까. 시스템을 개발하는게 굉장히 복잡한게 뭐냐면 필요한걸 미리미리 끄집어 내야 해요. 전기만 예를 들었지만, 배수도 있죠. 배수도 심각해요. 레귤레이션이 굉장히 많아요. 어떤 법적인 제약 조건에서 해야 한다. 이런 모든 걸 끌어낸 다음에 플래닝을 한 다음에 그 다음에 땅을 파야 해요. 예를 들어, 세일즈 트랜잭션이 발생했다. 그러면 세일즈와 관련된 시스템을 모두 가져다 놓고 개발을 해야 해요. 그런데 하다보니까 빠뜨렸어. 설계나 분석 단계에서. 그럼 결국 관련된 부분을 다 수정 해야 해. 집을 짓고나서 그걸 발견하면 부시고 새로 해야해요. 그런일이 발생하면 안되는데 그런 일이 발생해요. 진동씨. 외주주면 분쟁이 일어나요 안일어나요? 일어나죠. 버그가 생기면 버그가 잡아야죠. 어떤 일이 일어나면. 한진 그룹. 조중훈 회장님 지금 조양호 아버지이신데. 회장님 앞에서 시연을 하는거지. 그런데 안돌았어. 거래처리 시스템의 복잡성이 그런데서 나오는 거지. 그래서 방법론이라는 것이 필요한거야. 방법론이 뭐냐면, 시스템 개발 단계별로 해야 하는 것들의 템플릿이 있어. 산출물 까지 다 정해져 있어.

각 단계 이후에 어떻게 쓴다 이런 것 까지 다 나와 있는거죠. 그리고 이 작업을 할 때는 어떤 룰을 적용해야 하고 분석을 해야 하는지까지 다 나와있어. 이거 옛날에 배울 때는 2억이었어. 여러분들은 싸게 하는거지. ㅎㅎ.

정보 시스템을 구현하는 순서를 보면. 위와 같아요.
 

이 세계의 계층이 의사결정이 달라요. 굉장히 구조화 되어있죠.  구조화. 스트럭처드. 이 이야기를 잘 안쓰려고 하는데. 정형화 되어 있는. 프로그램화 할 수 있는. 여기서 말하는 것은 컴퓨터 프로그래밍은 아니에요. 공식화 할 수 있냐. 이런 의미로 쓰면 좋겠어요. 예를 들어서, Economic Order Qty(시간) 학교에서 생수 같은걸 주문 한다고 생각해봐요. 교학부에서는. 이걸 언제 몇 개를 주문할까요. 요즘에 농심라면, 신라면 많이 드시죠? 이마트 같은 곳에서 사람들이 신라면을 찾으러 왔어요. 그런데 없는거야. 이럴때 문제가 되는 거죠. 신라면을 언제 몇개를 주문을 할 거냐. 이것이 바로 ECO 모델이에요. 하나의 공식이에요. 재고 소진 속도. 얼마나 빨리 팔리는지. 하루에 몇 개나 팔리는지. 이런 속도가 있을거야. 구체적으로 주문하면 구체적으로 언제 가져오냐. 현재고가 사실 없어도 돼. 저거만 알면. 딜리버리 타임, 소진 속도만 알면. 저거는 뭐 공식이죠 공식. 룰로 딱 만들어가지고 현업 담당자가 저거 돌려가지고 주문만 하면 되는거야. 이런게 바로 구조화된 의사결정이죠. 세미-스트럭처드는 뭐에요? 뭐긴 뭐야 반구조화 되어 있는거죠 ㅎㅎ… 책에 나와 있는거 보면 타임지의 표지를 디자인하는 거죠. 이건 구조화 할 수 있어요? 이건 구조화가 안되는거죠. 감이라고 해야할까? 인사이트라고 해야하죠. 구조화 부분 부터 해볼까요. 어떤 정보가 필요할까요. 편의점 훼미리마트나 세븐 일레븐 같은 곳을 보면 하루에 제품을 얼마나 많이 바꾸는지 아세요? 아침에 많이 팔리는 물건 점심에 많이 팔리는 물건 같은 것들을 진열을 계속 바꿔요. 그쵸? 점심밥 먹는 것도 사람들이 날씨에 따라 달라져요. 그러니까 보면 우선 통계적으로 봐서 어떤 시간대에 어떤 물건이 많이 팔리는지 봐야하죠. 그 다음에 봐야 하는 게 뭐죠. 지역특성. 인구적 특성(데모그라피적), 날씨. 이런거 봐야하죠. 본사에서 이런 것들을 종합해서 가이드라인을 줘요. 그럼 점장을 그것들을 보고 참고해서 의사결정을 해요. 예를 들어서 본사는 광화문점에서 그 날 데모가 있을 것인지에 대해 정확히 몰라요. 점장은 그걸 알죠. 이런게 세미-스트럭쳐드 의사결정이죠. 눈 높이에 있는 매대가 1등석. 거기에다 제일 popular한 브랜드를 놓아야 하죠. 거기다가 놓아야 하죠. 영업 사원들이 매장에 방문해서 하는 게 진열 바꾸는 거해요. 자기네 물건을 1등석에 놓는거죠.
 

경영자의 의사결정을 지원해 주는거죠. 이런걸 지원해주려면 시스템 구성 요소중에 뭐가 있어야 겠어요? 굉장히 다양한 통계 패키지가 들어가야겠죠? 통계 패키지는 엄청나게 많아요 무빙 애버리지 모델 등등. 그 안에 모델이 많이 들어가요. 데이터베이스와 같은 개념인데, 그것들을 뭐라고 하냐면 모델 베이스라고 해요. 데이터 베이스는 들어봤죠? 모델 베이스라고 해요. Data_Base, Model_Base. 데이터 베이스는 DB 깡통이에요. 그 안을 들여다 보면 그 안에 데이터가 있어요. 데이터 베이스를 가져다 쓰려고 하면, 소프트웨어가 있어요. DBMS (Database Management Systems) 프로덕이 많아요. DDL 데이터 데피니션 랭귀지. 이런거 하죠. 길이정해주고 타입 정해주고. 파일도 있고. 이런 것들 디파인 하는 것이 DDL이에요. 이안에 많아요. 리커버리 하는 것도 있고. 얘를 종합적으로 관리하게 해주는 것이 DBMS야. 이거랑 똑같은게 MBMS가 있어요. 모델 베이스 메니지먼트 시스템. 모델을 검색하게 해주고. 두 개를 붙일 수 있게 해주고. 모델을 개발할 수 있게 해주고. 하는 것이 MBMS야.

DSS의 가장 큰 특징은 MBMS 기반이라는 거에요. 모델 베이스. 이게 가장 큰 특징이에요. 통계 패키지 돌려보셨어요? 통계 패키지로만은 안되요. 결국은 DB를 물고 돌려야 해요. 1년치 통계 데이터 누적이 되면 규모가 어떻게 될까. 파일의 크기가 어떻게 될까. 증권거래소 데일리 트랜잭션이 어느정도나 되요? 엄청나요. 그것 물고 돌리는 거에요. 1년치 누적된 데이터만 가지고 통계 패키지를 돌리자 그거에요. 미래 예측하는. 잘 모르겠지만 오래걸리겠지. 이거 도는 동안은 다른 사람은 못써요. 그러니까 얘는요. 시스템을 따로 써야 해요. 거래 처리하는 시스템하고 완전 따로 써야 해요. 그리고 DB 구조가 달라야 해요. 제일 크게 다른게 뭐냐면 이 DB구조는 업데이트 인서트 델리트가 없어요. 10년치 데이터를 물고와서 수정을 해봐. 그러면 시스템 리소스는 다 나가는거야. 그래서 얘는요 기본적으로 Read-Only에요. 그러면 새로 나오는 데이터는 어떻게 해요? 갖다가 붙여요. 맨 끝에다가. Append 하는거죠. DSS에서 쓰는게 데이터 웨어하우스에요. 그럼 데이터 웨어하우스가 빅데이터에요? 그건 또 아니에요. 거래처리 시스템과 의사결정 지원 시스템이 다르죠? 모델 베이스도 있고 데이터 웨어하우스도 다르고. TPS 만드는 절차랑 DSS 만드는 절차가 달라야겠죠? 달라요.

전문가 시스템이 뭐에요? // 시스코 학생분: 외부 데이터를 가져오고 내부 데이터를 분석해서 알고리즘이나 추세를 가지고 초점을 맞춰서 결론을 내는거. // 전문가 직업 뭐뭐 있어요? 문제가 생기면 자기네 들이 노하우가 있어. 그 노하우를 시스템화 해놓은게 전문가 시스템이야. 의사들이 하는게 뭐에요. 검사 결과를 해석하는 거에요. 그게 전문성이라는 거에요. 검사결과의 범위를 정해놓고 어떤 병을 의심해봐라 하는게 전문가 시스템이에요. 세무사의 전문가 시스템은 뭐에요. 세금계산하는거에요. 세법에 근거해서. 세법을 보면 어떻게 되어 있어요? 기본적으로 소득이 얼마면 세율이 몇 % 이런식으로 되어있죠. 세무신고 해봤죠? 그런거에요. 부양가족이 몇 명이면 곱하기 얼마해서 어디에서 빼라. 소득공제하는 상품에 가입되어 있으면 얼마를 빼줘라. 그것들을 뭐라고 하는가. 전문가의 전문성을 시스템화 한게 Knowledge Base에요. 룰베이스. 거의 대부분 되요. if조건 해가지고 하면 거의 다 되요. 전문가의 전문성이라는걸. 변호사의 전문성이라는 건 뭐에요. 법이에요. 변호사가 또 뭐하는지 아세요? 판례 찾아요. 주니어 변호사 되면 하루종일 판례만 찾아요. 그렇죠? 우리 분야에서 한창 이야기 나오는 것이 미래에 없어질 직업. 엑스퍼트 시스템도 AI의 한 분야에요. 로봇은 저걸 가지고 적용을 하는 거지. 없어질 직업들 대표적인게 변호사에요. 수요가 확 줄어들 것이에요. 이거 이제 로봇이 할 것이죠. 세무사는 이미. 국세청 사이트 들어가서 해보세요. 지가 다해요. 연말정산도 엑스퍼트 시스템의 하나에요. 의사. 의사도 수요가 많이 줄거에요. 의사의 전문성이라는 게 결국 전부 검사결과 해석하는 것이에요. 데이터는 있어야지. 여기서는 엔진이라고 해. 엑스퍼트 시스템의 엔진은 뭐에요? Knowledge Base를 관리하는 거에요. 그런데. 엑스퍼트 시스템을 개발하는데 제일 중요한 것은 무엇이냐.

전문가의 전문성을 어떻게 끄집어 내야 할 것인가. 전문가의 전문성을 끄집어 낼 수 없는 부분이 있어요. 그게 뭘까. 디자이너. 같이 전문가의 전문성을 어떻게 끄집어 내야 하는거. 이런게 어려운 분야는 당분간 직업이 없어지진 않을거에요. 이게 개발 절차에요. 제일 어려운 부분이 Knowledge Acquisition 이런 부분이죠. 보시면은. DSS가 나름 특징이 있고, TPS 특징하고 또 달라. Expert System은 또 달라. 각각 포인트가 있고.

엑스퍼트 시스템을 보면 질문을 계속해요. 계속 물어봐. 시리즈 오브 퀘스천. 엑스퍼트 시스템과 DSS는 근본적인 차이가 있어요. 엑스퍼트 시스템은 답을 줘요. 세금 엑스퍼트 시스템은 네가 금년에 낼 세금이 얼마다 라고 딱 나와. 병원에서 쓰는 엑스퍼트 시스템에서는 환자의 병명이 나와요. DSS에서는 답을 주는게 아니라 의사결정에 도움을 주는 정보를 줘요. 엑스퍼트 시스템의 용도는 뭘까요. 실제로 쓰거나 트레이닝 목적으로 써요. 각각의 시스템 마다 개발하는 절차가 다르고 내용도 다르죠. 근본적인 다름의 이유가 뭐야? // 엔드유저가 다르다. // 각 경영 계층 마다 의사결정의 속성이 다르다. 그래서 우리가 하는 것은 TPS를 개발하는 절차를 배운다.

 
TPS 시스템의 특성이 뭐죠? 정확해야 하고 빨라야해. 복잡해.
TPS에서 DSS로 넘어가는 연결고리는 어떻게 해야하나. DSS의 DB는 다르다고 했죠. 1주일에 한 번이나 2주일에 한 번 정도 데이터를 가져다 줘야 최신 자료로 돌리겠죠? TPS가 ERP인데. SAP에서. 비즈니스 웨어하우스라는게 있어요. BI라고 비즈니스 인텔리전스. 이게 데이터 웨어하우스인데. 이런 과정이 있어요. TPS 끼리의 관계는 시스템 안에서 통합을 해서 지들끼리 연결을 해줘. // 모델 베이스는 DB에서 뷰를 만들어서 올리는 거랑 비슷하다고 볼 수 있나요? // 모델 만들어서 불러다가 쓸 수 있어요. KMS는 잘 안되고 있는게, 컨택스트가 다르기 때문에 잘 안되요. KMS는 디렉토리에요. 내가 알고 있는 분야의 태깅 정도. 어떤 문제에 대해서 문제가 있으면 누가 알고 있다. 이정도. 태깅이라고 해야할까. 날리지를 바로 찾는다. 이런 개념보다는 이런 정보는 누구에게 물어보면 된다. 이정도가 가장 효과가 크다. SI업체에서 제안서를 공유하는 시스템을 만들었는데, 이게 잘 안돼. 엑스퍼트 시스템 같은 경우에 구조화 여부가 가장 커요. KMS와 날리지 베이스의 가장 큰 차이점은 구조화 할 수 없는 걸 KMS에서 담으려고 한다는 거에요. 연구라는게 가장 큰 게 연구 주제를 잡아야 하는거에요. 신삥 박사들은 그걸 잘 못잡아요. 이건 설명이 안되는 부분이에요. 이런게 있어요. 테싯 날리지 부분인데. 엑스플로싯 날리지는 언어로 표현이 가능해요. 테싯은 언어로 표현이 안되는 부분이에요. 타자가 공을 잘 치는 것이 룰로 만들어지나? 거의 본능적으로 치는 것이지. // KMS가 결과적으로는 실무에서 구축해보면 잘만들어진 FAQ정도 밖에 안되더라고요. // 유형화가 가능해도 보안 전문가 시스템을 예를 들면, 새로운 유형이 계속 나오면 그것도 문제가 된다.

시스템 분석가라는 잡 타이틀이 있어요. 시스템 분석가가 뭘 하는거에요? 비즈니스 문제를 컴퓨터로 푸는 사람들이야. 정보 시스템으로 비즈니스 문제를 풀려고 하는 사람들이 시스템 분석가에요. 시스템 분석 설계는 뭐냐. 비즈니스 시스템을 분석하고 정보 시스템을 디자인 하는거에요. 비즈니스 문제를 분석하는 거에요. 먼저. 예를 들어, UI가 불편해요. 프로그램이 느려요. 이런건 시스템 문제에요. 비즈니스 문제가 뭐에요. 우리학교에 우수한 학생이 안와요. 교수들이 연구 실적이 떨어져요. 이런게 비즈니스 문제에요. 비즈니스 문제를 연구하는 거에요. 이런 비즈니스 문제에 대해 시스템적인 솔루션을 주는 거에요. 정보대학원에 사람들이 안와요. 왜 그럴까. 얼마나 좋은지 모르니까. 커리큘럼이 옛날 것이다. 이걸 어떻게 해결할 것인가. 예를 들어, 학생들이 원하는 정보를 추려야죠. 평균 졸업생 연봉, 평균 취업률, 입학생 백그라운드. 이런 정보들을 어디에 뿌릴 것인지. 채널까지 정해줘야 하죠.

이 과정에서 시스템이 할 일이 있죠. 그 문제를 정보 시스템으로 푸는게 시스템 분석 설계에요. 그래서 첫 번째가 비즈니스 시스템 분석이에요. 그리고 나서 정보 시스템 설계를 하는 것이죠. 구조적인 접근이 중요하죠. 왜 중요해요? 복잡하니까. 우리 시스템 하나 구축하면 엔티티 숫자로 이야기하면 base entity가 거의 800개에요 작은 기업이. 여기에서 파생되는거면 더 크죠. 그래서 구조적인 접근이 필요하죠.

시스템에서 가장 중요한게 데이터랑 프로세스.

우리가 프로세스 모델링과 데이터 모델링을 할 것인데, 이게 헷갈려요. 데이터는 독립적이에요. 나홀로 살아. 그런데 문제는 뭐냐. 데이터는 프로세스가 움직여 주지 않으면 아무것도 못해. 그러니까 프로세스가 데이터를 사용하는 거에요. 프로세스가 데이터를 사용하지 않으면 스스로 아무것도 못한다. 아시겠죠. 예를 들어, 매일매일 발생하는 거래 DB가 있어요. 그럼 이놈이 DB 깡통에 들어가 앉으려면 프로그램이 돌아야 DB에 저장이 되요. DB에 저장이 되어 있는 걸 수정하려면 그것도 프로그램이 하는 거에요. 프로그램의 도움이 없으면 저 혼자 뭘 못해. 프로세스와 데이터의 관계는 뭐냐. 프로세스가 데이터를 써요. 어떻게 쓰냐. CRUD (Create, Read, Update, Delete) 라고 해요. 저걸 모르면 이과목이 패스가 안되요 ㅎㅎ 굉장히 중요한거에요. 프로세스가 데이터를 써요 어떻게 써요? 넷 중에 하나로요. 그렇죠.

DB 개발과정은 이래요. ER 만들었죠? 처음에 개념 모델을 만들어요. Conceptual Schema에요 스키마는 뷰에요. -> 논리모델을 만들죠. Logical Schema -> 물리 모델 Physical Schema
그래서 이런 과정을 쭉 따라 가서 DB가 만들어지죠.

프로그램들이 중앙 DB를 같이 쓰는거에요. 함께. 그래서 관련된 시스템들 사이의 연관관계를 어떻게 지어주냐. 센트럴 DB를 통해서 하는거에요. 개념적으로 공통된 DB를 하나 만들어 놓는거에요. 업무가 생기면 여기다가 다 갖다가 써요. 그리고 얘를 공유하는 거에요.

이 과목은 프로세스에 중점을 두고 DB에 대해서도 해요.
 

시스템 분석을 잘하려면 결국 해당 비즈니스에 대해 잘 알아야 해요. 은행 시스템은 은행 업무를 잘 알아야 해요. 문제 해결 능력이 정말 좋아야 해요. 시스템 분석가는 사람간 관계를 잘 맺어야 해요. 시스템 분석가는 참 어려워요. 현업하고 일하면서 컴퓨터 프로그래밍 하는 사람들하고도 일해야 해요.

이런 스킬을 얻으려면 해봐야 해요. 그래서 숙제를 내주는거죠. ㅎㅎㅎㅎㅎㅎㅎㅎㅎ 숙제도 해보고 프로젝트도 해보고 시험도 해봐야 해요. 숙제를 채점해보면 집에서 집사람이 왠 그림밖에 없냐고 해요. //김진동: 개념모델. 이런 이야기 해주셨는데 수업시간에 나올 이야기죠?
 
2016-02-24 Microsoft 2016 전략

 
MS 클라우드는 하이브리드다.
 - 데이터를 주고 받을 수 있음.
 - public, private, service provider
 
손쉽게 만들고 손쉽게 지울 수 있는 게 클라우드의 매력.
Hyper V - 운영체제에 (MS) 종속적이지 않도록 하려고.
 
Agility 기민성과 flexibility 유연성
 
Docker - 애초에 각 모듈간 독립적으로  scale up / down을 할 수 있도록 설계하고 배포할 수 있도록 한 것.
 
Mobility 서버환경을 이미지화
 
* AWS와의 차별화 포인트
 - 고객 정보는 고객것. 문제 생겨서 살펴볼 경우에 고객 동의를 받음.
 - ASM vs ARM : 서버를 오브젝트 단위로 조립할 수 있음. 아마존 처럼 t1, t2 이런식이 아니라, 랜카드, 램, CPU, HDD 등이 오브젝트로 되어 있어서 가져다가 쓸 수 있도록 함.
 -
 
 

+ Recent posts