반응형

 

이것이 빅데이터 기업이다

작가
함유근
출판
삼성경제연구소
발매
2015.03.20.

 



2012년 <빅데이터, 경영을 바꾸다>의 후속편?

 

빅데이터의 기술과 파급의 영향도가 넓어진 상황에서 이를 (기술과 유행 및 효용성)을 이용해서 성공한 많은 기업들이 나오고 있다.

작가는 이러한 기업의 유형(비즈니스 모델)을 다섯가지로 분류하고 각각의 특성과 주요 사례 및 동향을 설명하고 있다.

2012년 중반 해리서 머피(Harris H. Murphy) 등이 데이터 과학자 대상의 설문 조사를 통해 데이터 과학자들의 기술, 경력, 경험, 과업들을 분석해서 데이터 비즈니스맨, 데이터 창출자, 데이터 대리인(data developer), 데이터 연구가(data researchers) 4가지로 구분했다. 여기에 작가는 빅데이터 응용가라는 구분을 추가한다. 빅데이터 응용가는 빅데이터 과학자들 중 하나의 응용 분야에 집중하는 것이 빅데이터 응용가 비즈니스 모델이라고 정의한다. 앞의 4가지 구분은 다른 책에서도 많이 소개되는 내용이다.

넓고 다양한 기업의 사례를 제공하고 있어서 빅데이터 사업/비즈니스 모델을 고민하는 사람이라면 반드시 읽어봐야할 좋은 책이다. 책을 읽고 흥미있는 사례를 찾아서 좀더 연구하면 재미있는 결과가 예상된다.

시공존​

​데이터 비즈니스맨

상업적 활용이 가능한 데이터가 많은 기업에서 데이터를 가공/분석하기 보다는 활용 방안을 찾는 전문가(사업과 도메인 데이터의 활용을 연결하는 역할)​

루미나, NTT도코모 인사이트, JR동일본​

데이터 창출자

데이터를 분석해서 새로운 정보/지식을 만들어내는 기술 전문가로 고차원의 수학/통계학/컨퓨터공학/물리학 등의 이론과 기법을 분석에 적용하는 사람

액시엄(Acxiom), 팩추얼(Factual​), 맵마이런(MapMyRun), 매직밴드(MagicBand)

데이터 대리인(Data Developer)

데이터 관리를 전문으로하는 사람. 업무 과정에서 많은 데이터가 발생하는 기업들에선 데이터를 분류, 정리, 저장, 유지 하는 일

뉴턴(Knewton), 넘버파이어(NumberFire), 산산(Sansan), 소크라타(Socrata): 공공기관이 오픈 데이터를 이용해 대국민/시민 서비스를 제공할 때 필요한 데이터 저장과 접근, 시스템 연결 인터페이스 개발 및 성능 관리를 위해 보안과 시스템의 확장성을 갖춘 플랫폼을 제공​

데이터 연구가

분석기법보다는 특정 분야나 산업의 지식에 정통해 자신의 전문 분야에 데이터를 활용하는 사람​

데이터 응용가

데이터 비즈니스맨이 기존 사업에서 파생되어 축적된 데이터가 비즈니스의 핵심 자산인 모델이라면 빅데이터 응용가는 데이터로 기존 서비스를 혁신한 스마트한 서비스가 핵심인 모델

당신보다 당신을 더 잘 알지도...액시엄

​액시엄의 개인정보 내용

  • 개인정보 : 취미, 관심사, 친구, 가족 관계
  • 기본 데이터 : 이름, 주소, 성별, 인종, 직업, 교육수준, 결혼 여부, 자녀숫자, 자녀의 나이/성별
  • 삶의 변화 계기 : 결혼, 주택 구입, 이사, 임신 및 출산, 자녀의 대학 진학 여부
  • 재무 정보 : 상품 구매 정보, 월급, 자산(부동산, 차랴8ㅇ) 상황, 장기 주택담보대출 등의 상황
  • 공공기록 : 파산 신청, 이혼 신청, 범죄 기록 혹은 법정 기록, 교통사고 기록

개인 데이터의 종류

자료: The Sogeti trendlab VINT (2013). No More Secrets with Big Data Analytics

[개인 데이터]

관련 데이터 : 이름, 주소, 전화번호, 이메일 주소, 성별, 교육수준, 직업, 선호 정당, 인종, 사용언어, 나이, 생년월일 등

데이터 수집 : 인종 코드, 사용언어는 성이나 설문조사를 통해 유추. 생년월일은 생명보험 마케팅 같이 특별한 목적을 가진 경우에만 수집하고, 보통 나이나 태어난 연도 혹은 연월 정도만 수집

[가구의 인구통계학적 데이터]

관련 데이터: 어른의 나이 범위, 자녀들의 나이 범위, 어른 및 자녀들의 수, 결혼 상태

[가구의 관심 사항]

관련 데이터 : 독서, 음식/요리, 음악, 여향, 운동, 건강, 자기계발, 취미, 애완동물, 스포츠, 수집, 투자, 컴퓨터/전자제품, 집수리/개선, 게임, 사진 등

데이터 수집 : 설문조사, 가구원들이 관심을 표명하거나 구입한 물건, 서비스 등으로 유추. 한가구의 관심사는 여러가지일 수 있음

[가구 구매 행태]

​관련 데이터 : 구매 빈도 및 종류 지표, 소매 및 우편 주문 구매 지표, 기부 지표, 지역사회 참여도, 미디어 채널 사용 지표, 구매 채널 선호도, 평균 우편 구매 금액 및 빈도 지표, 구매 점포 유형 지표(구매 종류 지표에는 옷, 집수리/개선, 책, 컴퓨터/전k제품, 소형 도구 등이 포함. 구매점포 유형에는 일반 소매점, 전문점, 고급 백화점 등이 있다.

[가구의 라이프 이벤트]

관련 데이터: 새로 부모가 된 사람들, 부모가 될 것으로 예상되는 사람들, 새로 운전면허를 취득한 십대, 대학 졸업자, 자녀는 떠나고 부부만 사는 사람들(Empy Nester), 이사한 사람들, 최근 주택 구입자, 최근 장기주택담보 대출자, 최근 결혼한 사람들, 이혼한 사람들, 독립한 자식들, 새 차를 구입한 사람들.

데이터 수집 : 설문조사나 공공 기록을 통해 수집

[가구 생애 단계(Life Stage)그룹(퍼소닉스에 따른 분류)]

​관련 데이터: 액시업의 퍼소닉스(Personicx)는 가구의 종류를 구분하는 싯템으로, 미국의 가구들을 특정 고객이나 인구통계학적 특성에 따라 70개 그룹 중 하나로 분류. 이런 분류 그룹으로는 '꼭대기 거주자(Summit Estates)', '커리어 중시 싱글(Career-Centered Singles)', '농촌 선호(County Ways)', '어린아이와 장남감, 축구와 SUV, 도시 생활 즐기기, 애플파이 가조그 롤링스톤 등

[가구 재산 지표]

관련 데이터: 신용카드 유형 지표, 가구의 수입범위, 수익을 내는 자산 지표, 가능성 있는 투자자 상태(Likely Investor Status), tnswktks qjadnl.

데이터 수집 : 신용카드 유형 지표는 카드 종류(은행카드, 여행카드, 백화점카드 등)정보에 한정된다. 특정 신용카드 데이터를 보유하는 것은 아니다. 재산과 관련된 모든 지표는 구체적 수준이 아닌 요약된 범위(range)로 표현되며, 부의 구체적 수준을 드러내지 않는 데이터 소스로부터 도출된다.

[가구 부동산 데이터]

관련 데이터 : 주택 소유자/세임자, 거주 기간, 주택 구입연월, 주택 건축 연월, 주거 유형, 주거지의 넓이, 부동산의 특징, 주택 대출 규모, 주택의 시장가치 , 주택의 평가각치, 주택 대출액 대비 가치 비율.

데이터 수집 : 부동산 기록과 평가기관으로부터 수집된다.

[가구 차량 데이터]

관련 데이터 : 연식, 제조업체, 차량 가치, 차량 라이프 스타일 지표, 선호 모델 및 브랜드, 중고 자동차 선호도 지표.

데이터 수집 :​ 자동차 판매점, 자동차 서비스업체/수리점, 차량 보증 기간 연장 등에서 행한 설문조사로부터 수집된다.

[가구 건강 관심사]

관련 데이터; 알르레기, 장애 여부, 당뇨, 관절염, 거동 여부, 콜레스테롤, 동종요법(homeopathic) 정형외과 병력이나 고령에 따른 도움 필요 여부, 선호하는 우편 주문약, 브랜드 선호도, 질병이나 처방약ㅇ 대한 온라인 검색 경향.

데이터 수집 : 설문조사, 구매 데이터로부터 얻어진다.

[가구 소셜미디어 지표]

관련 데이터 : 고객의 소셜미디어에 대한 일반적인 관심과 이용 정도, 이용하는 사이트 소셜미디어 내에서의 활동성 수준.

데이터 수집 : 개인이 포스팅한 글의 내용이나 친구 목록, 기타 공공 정보가 아닌 것은 수집하지 않는다. 소셜미디어 정보는 데이터 수집이 허용된 소셜미디어 사이트의 공개된 정보에 한정된다.

EMC의 빌 슈마르조(Bill Schmarzo)는 데이터가 돈이되는 경우를 3가지로 정리

1. 자신이 보유한 데이터(분석한 결과와 함께)를 잘 포장해 다른 기관에 판매하는것

2. 자신의 상품이나 서비스에 분석 기법을 적용해 인텔리전트한 제품을 창출하는 것이다.

3. 유용한 정보를 추천해 고객과의 관계를 긴밀히 하고 고객의 경험을 높은 수준으로 재구현하는 것

빅데이터를 이용한 로켓퓨얼의 실시간 광고 매칭 과정

자료: Rocket Fuel Advertising That Learns (2013.10)

슈퍼컴퓨터로 경영컨설팅에 도전하다 - IBM의 왓슨(Watson)

​왓슨의 5가지 능력

  • 일상적인 사람들의 언어 표현을 이해하는 능력
  • 동시에 여러 개의 답을 찾고 이들의 신뢰성을 평가하는 능력
  • 담의 정확도를 높이기 위해 계속 반복해서 질문하고 답하는 능력
  • 다양한 비정형 데이터를 다루는 능력
  • 자기학습능력

왓슨이 질문에 답하는 과정

  1. 질문
  2. 질문 분석
  3. 가설 설정
  4. 답변의 근거 수집 및 평가
  5. 답변의 최종 신뢰도를 결정하기 위한 가중치 부여 및 통합

IBM Watson: Beyond playing Jeopardy p18

http://www.lanl.gov/conferences/salishan/salishan2012/Frase.pdf

스포티파이 사용자 프로파일링(Profiling)

​소리의 특성, 청취자의 특성, 청취 형태 3가지를 결합하여 사용자 프로파일 생성

  • 음향적 특성(acousticness) : 노래의 음향적 특성을 점수화
  • 음악가 친밀도(artist affinity) : 특정 음악가에게 느끼는 친말도
  • 음악가 인기도(artist hottness) : 음악가의 최근 온라인 활동 정도
  • 춤추기 용이성(danceability) : 노래가 얼마나 춤추기에 적합한가의 정도 (그러면 얼마나 마음을 편하게 하는가, 얼나마 잠들기 좋은가 등도 가능할까?)
  • 지속도(duration) : 초 단위로 측정한 노래 길이
  • 에너지 : 노래의 전반적인 에너지
  • 라이브 수준 : 노래가 라이브로 녹음되었는지 여부
  • 소리 크기 : 노래의 전반적인 볼륨
  • 노래 인기도 : 최근 온라인상에서 노래의 인기도
  • 말의 양 : 노래 가사의 양
  • 템포 : 노래의 분당 비트(BPM)

 

​스포티파이는 취향 프로파일링 기술을 이용해 사용자가 음알을 즐기는 특징을 포착해 개인의 취향 및 선호를 파악하는데, 아래 5가지의 특성을 반영한다.

  • 모험심 : 평소 편안하게 듣는 범주 밖의 음악을 얼마나 자주 듣는가
  • 다양성 : 청취자의 선호 스타일과 음악 장르가 얼마나 다양한가
  • 참신성 : 옛날 음악 대비 새로운 최신 음악에 대한 청취자의 선호도는 어떠한가.
  • 지역성 : 청취자가 선호하는 음악가의 출신 지역이 전 세계적으로 얼마나 광범위한가
  • 주류성 : 무명 음악가 대비 유명 음악가에 대한 청취자의 친밀도는 어떠한가

 

​청취 형태

  • 평소에 듣는 음악가
  • 평소 듣는 노래
  • 좋아하는 음악
  • 싫어하는 음악
  • 음악에 대한 평가
  • 듣다가 건너 뛰는 음악

이런 프로파일을 통해

  1. 1. 각 사용자가 스포티파이가 제공하는 서비스에 얼마나 가치를 두는지 평가하고 예측하며,
  2. 2. 고가치 청취자 그룹에 맞춤화된 고객 경험을 제공하는 서비스들의 음악적 특성을 찾아내고,
  3. 3. 타킷 광고를 위한 고가치 청취자 그룹의 수익 창출에 도음이 되는 이들의 심리적 특징을 파악한다.​

​또한 단순이 음악이 아니라 음악적 정보에 대한 고객의 갈증을 해소하는데 도움이 되는 정보를 맞춤 제공. 검색과 웹 피드를 통해 음악가와 관련성이 큰 최신 정보를 실시간 제공, 음악가의 최근 활동, 이미지,포스팅 글 등...

​제스트파이센스

7만개의 변수로 신용평가 후 대출 서비스

기계학습을 통해 신용을 산출하고 사람이 보정처리하여 업무에 사용

개인 파산에 대해서도 기계학습으로 만든 모델이 파산 후 경과 연수를 산출하고, 전문가가 그동안 가계의 개선 현황을 분석해 반영한다. 그래서 개인의 파산 경력을 기존 평가 알고리즘처럼 단순히 부정적으로만 보지 않고 유통성 있게 해석한다. 이렇게 해서 모든 대출자에 대한 상세하고 정확한 위험도 프로파일이 작성된다.(대출 신청서 작성시 대문자로만 작성하는 사람이 대소문자를 함께 쓰는 사람 보다, 그리고​ 대소분자를 정확히 사용하는 사람보다 연체 가능성이 높다고 한다.

기존 신용평가 방식에 비해 거의 60%개선, 대출상환율도 기존 방식에 비해 90% 높았다.​

​312 페이지

​불완전한 데이터를 이해하는 위상수학

위상수학 : 사물의 모양이나 상태를 말하는 형상의 본질(즉, 수학적 특성)에 대해 연구하는 수학의 한 분야다. 어떤 형체를 측정하고, 그 형체를 압축된 수학적 결합 공식으로 표현하며, 그 표현의 진실성을 검증하는 것이 위상수학의 주된 주제다. 위상수학에서의 형상이란​ 데이터 포인트들과 이들 관계의 집합을 의미하는 것으로 ......즉, 수많은 데이터를 위상수학을 통해 압축하고 단순하게 표현하면서 그 속에서 의미(즉, 본질)를 찾을 수 있게 된 것이다.

 

 

 

 

목차

Prologue | 미래기업의 현재를 읽다

Chapter 1 미래기업의 열쇠, 빅데이터
Intro : 사람도, 기술도, 비즈니스도… 이제 변했다!
01 | 새로운 산업 지형, 빅데이터 생태계
02 | 빅데이터 비즈니스 모델이 만드는 미래기업
03 | 빅데이터 비즈니스 모델의 5가지 유형

Chapter 2 빅데이터 비즈니스맨
Intro : 축적된 데이터를 사업화하라!
01 | 구직·구인 정보로 노동 시장을 예측하다 : 몬스터 거버먼트 솔루션스
02 | 스페인어 방송사에서 히스패닉 마케팅 전문가로 : 루미나
03 | 교통카드 사용 내역도 쌓이면 돈이 된다?! : JR동일본
04 | 통신사가 인구 통계를? : NTT 도코모

Chapter 3 빅데이터 창출자
Intro : 가치를 창출하는 데이터를 찾아라!
01 | 당신보다 당신을 더 잘 알지도… : 액시엄
02 | 맛, 데이터로 증명하라! : 푸드 지니어스
03 | 감성 대신 논리로 패션을 보다 : 에디트
04 | 팩트를 잡아라! : 팩추얼
05 | 자산이 된 신체 정보 : 아이웨어랩
06 | 사물인터넷의 미래를 제시하다 : 웨이즈
07 | 사람들을 달리게 하라! : 맵마이런

Chapter 4 빅데이터 대리인
Intro : 스마트한 대리인이 되라!
01 | 유전체 연구의 대중화를 선도하다 : 넥스트바이오
02 | 공공 데이터는 공개되어야 한다! : 소크라타
03 | 광고 산업의 미래로 날아가다 : 로켓퓨얼
04 | 판타지 스포츠 경기의 승리자 : 넘버파이어
05 | SNS 데이터 속에 모든 답이 있다! : 데이터시프트
06 | 데이터로 교통을 지배하다 : 인릭스
07 | 디지털 맞춤 교육의 시대는 이미 시작되었다! : 뉴턴
08 | 기업을 대신해 위험에 대처하라! : 리슨로직
09 | 잘 관리된 명함은 고객관리의 원천이다 : 산산

Chapter 5 빅데이터 연구자
Intro : 연구 자체를 사업화하라!
01 | 농식물 빅데이터에 전문지식을 더하다 : 에보젠
02 | 인간 유전체의 비밀을 해독하라 : BGI
03 | 비즈니스 노하우를 빅데이터 사업으로 : 히타치글로벌센터
04 | 슈퍼컴퓨터로 경영컨설팅에 도전하다 : IBM의 왓슨

Chapter 6 빅데이터 응용가
Intro : 고객의 속까지 알고 서비스하라!
01 | 스티브 잡스를 울린 음원 유통 시장의 파괴자 : 스포티파이
02 | 7만 개의 변수로 신용을 평가하다 : 제스트파이낸스
03 | 날씨 데이터로 보험을 설계하다 : 클라이미트 코퍼레이션
04 | 중고차 가격의 불신을 해소하다 : 카센서 넷
05 | 불확실한 미래에 도전하는 법 : 이토큐에몬

Epilogue | 국내 빅데이터 비즈니스 모델 기업은 어디쯤 와 있는가?
참고문헌

반응형
반응형

Doing Data Science(데이터 과학 입문) /레이철 슈트, 캐시 오닐 지음

 

 

Doing Data Science

작가
O'Reilly Media
출판
O'ReillyMedia
발매
2013.11.14.

 


Doing Data Science(데이터 과학 입문) /레이철 슈트, 캐시 오닐 지음


​데이터를 분석하는 일과 관련이 있다면 한번쯤 읽어 볼만한 책인 것 같습니다.

단지, 데이터 분석의 범위가 워낙​ 넓고 할얘기는 많고

설명이 축약된 부분이 있어 초보자 분들은 이해하시기 어려운 부분이 있을 것 같습니다.

그리고 아무래도 사례와 해석이 외국의 내용이다 보니 번역이 어색하거나 이해가 어려운 부분이 있습니다.

그럼에도 불구하고 데이터 분석의 전반적이면서도 중요한 부분을 넓게 터치하고 있기 때문에

반드시 읽어볼 만한 책입니다.

특히, 마지막 부분에 나오는 ​도덕적 윤리 부분은 데이터 분석의 고수 일수록 읽어봐야할 부분인것 같습니다.

이하는 목차와 주요 내용이에요...

CHAPTER 1 소개: 데이터과학이란 무엇인가?
1.1 빅데이터와 데이터과학 열풍
1.2 열풍을 넘어서
1.3 왜 지금?
1.4 현재의 풍경(약간의 역사와 함께)
1.5 데이터과학 프로필
1.6 사고 실험: 메타 정의
1.7 데이터과학자는 정말로 어떤 직업인가?

CHAPTER 2 통계적 추론, 탐색적 데이터분석과 데이터과학 과정
2.1 빅데이터 시대의 통계적 사고
2.2 탐색적 데이터분석
2.3 데이터과학 과정
2.4 사고 실험: 여러분은 혼돈을 어떻게 시뮬레이션할 것인가?
2.5 사례 연구: 리얼다이렉트

CHAPTER 3 알고리즘
3.1 기계학습 알고리즘
3.2 세 가지 기본 알고리즘
3.3 연습문제: 기본적인 기계학습 알고리즘들
3.4 전체 요약
3.5 사고 실험: 통계로봇

CHAPTER 4 스팸 필터, 나이브베이즈, 경합
4.1 사고 실험: 예제로 배우기
4.2 나이브베이즈
4.3 좀 더 멋있게: 라플라스 평활
4.4 나이브베이즈와 k-NN의 비교
4.5 코드 예시
4.6 웹스크래핑: 기사분류를 위한 나이브베이즈

CHAPTER 5 로지스틱 회귀
5.1 사고 실험
5.2 분류기
5.3 M6D 로지스틱 회귀 사례연구
5.4 Media 6 Degrees 연습문제

CHAPTER 6 시간기록과 금융 모형화
6.1 카일 티그와 티비태그
6.2 시간기록
6.3 캐시 오닐
6.4 사고 실험
6.5 금융 모형화
6.6 연습문제: 티비태그와 시간기록 사건 데이터

CHAPTER 7 데이터에서 의미 추출하기
7.1 윌리엄 커키어스키
7.2 캐글모형
7.3 사고 실험: 로봇 평가자의 윤리적 함축성은 무엇인가?
7.4 특징 선택
7.5 데이비드 허페이커: 사회연구에 대한 구글의 하이브리드 접근법

CHAPTER 8 추천 엔진: 대규모 사용자 대면 데이터 상품
8.1 현실 세계의 추천 엔진
8.2 사고 실험: 필터 버블
(하략)

인상적인 내용​

2012년 수 백 명의데이터 과학 실무자를 대상으로 한 설문조사에 기초한, 데이터과학의 하위 분야에 관한 군집화 시각화. 할란 래리스, 숀 머피, 마크 베이즈만이 공저한 "분석자들을 분석한다" : 오라일리

 

주요 분야 : 데이터 사업자, 데이터 창조자, 데이터 개발자, 데이터 연구자

주요 스킬 : 비즈니스, 기계학습/빅데이터, 수학/경영과학, 프로그래밍, 통계학

 

 

벨연구소 -> 존 튜키 ->  EDA, R 발명가 Exploratory Data Analysis (기본도구: 도표Plot, 그래프graphs, 요약통계 summary statistics )


 

EDA

데이터 변수의 도표화

시계열 데이터 도표화

변수 변환

산점도 행렬을 이용한 변수들의 대응 관계 파악

모든 변수의 요약통계 생성

평균, 최솟값, 최댓값, 사분위수 등의 계산, 그리고 이상값의 발견


컴텐츠 순위알고리즘 개발 -> 인기있는 이라는 개념을 위해클릭의 최고 빈도, 또는 가장 많은 코멘트가 달린 게시글, 어느 기준치 이상의 코멘트, 혹은 여러 지표의 가중평균일 수 있다. 즉, 어떻게 양적으로 측정할지를 결정하기 전에 데이터가 어떤행동을 하는지 이해할 필요가 있고 이를 위해 가장 좋은 방법이 EDA 분석이다.

 

데이터 과학 과정

데이터 수집 -> 처리 -> 정제 -> 탐색적분석(EDA), 기계학습 분석, 통계적 모형 분석 -> 시각화, 보고 -> 의사결정, 상품개발 -> 실행/FeedBack

 

 

단계별 데이터과학자의 역할

(현실 : 질문하기 어떤 데이터가 기록되거나 수집될 필요가 있는가? 가설설정)

정제 : 왜 그러한가? 내가 답해야 할 연구 문제는 무엇인가, 나는 그것이 어떻게 보이기를 원하는가?

 

 

현실        ->       수집       ->      처리       ->       정제

인간행동         - 이메일            -파이프라인        - 정제

생물학            - 로그               -웹프로그래밍     -이상값

금융               - 의료 기록        -클리낭              -결측값

인터넷            - 설문조사          -변환                -디버깅

의학               - 채혈                -결합                 -표

사회학            - 올림픽 기록      -경합

올림픽            - 뉴욕타임즈

 

 

 

모형에서 얻고자 하는 것, 첫째는 추세고 둘째는 변이다. 추세는 방향 변이는 속도(?변화량?)

 

단순 선형회귀 분석 후 추가 분석 방법

1. 오차에 대한 가정을 모형에 도입

2. 더 많은 예측변수를 추가

3. 예측변수를 변환

 

 

 

참긍정률 True Positive Rate = 재현율 recall

 

정밀도 Precision : 맞춘것 대비 참긍정 비율:  참긍정의 수 / (참긍정의 수 + 거짓긍정의 수)

정확도 Accurary : 맞춘것 전체 대비 참긍정 + 거짓부정률 의 비율(맞는걸 맞다고하고 틀린걸 틀렸다고 맞춘 비율) =

ROC : Receiver Operation Characteristic

AUC : Area under the ROC Curve

F-scord

 

나이브베이즈와 k-NN

나이브베이즈는 선형분류기지만 k-NN은 아님, k-NN은 차원의 저주와 많은 특징집합이 문제 되지만 나이브베이즈는 문제가 안됨

k-NN은 훈련이 필요없고 데이터 세트를 그냥 사용하지만 나이브제이즈는 훈련이 필요함

둘다 지도학습

 

변동성 측정 시 회고 창(Loockback Window) 선택이 중요 : 정보를 취하는 과거 시간의 길이, 회고 창이 길어질수록 추정을 위해 더 많은 정보가 필요, 짧을 수록 새로운 정보에 더 빨리 반응

롤링창(Rollig window)

연속적인 회고 창(continuous lookback window) : 오래된 데이터는 낮은 가중치

​데이터 분류 문제 처리 시 결정 사항

1. 어떤 분류기를 사용할 것 인가?

     선택 기준

      가. 실행시간-빠른분석이필요한가?,

      나. 데이터 과학자 역량-정말 알고리즘에 대해서 잘 알고 분석 하는 것인가? 잘아는 알고리즘이 무엇인가?

      다. 해석 가능성-결과에대해 비즈니스 적으로 해석이 필요한가

            (예: 신용카드사는 RF보다 DT가 더 비즈니스 활용 측면에서 의미가 있음)

      라. 확장성 - 고려사항

            1) 학습시간: 모형을 훈련시키는데 얼마나 시간이 걸리나?

​            2) 평가시간: 모형 완성 후 새로운 사용자를 평가하는 데 얼마나 걸리나?

            3) 모형의 저장공간: 얼마나 많은 메모리를 차지 하는가?​

2. 어떤 최적화 방법을 택할 것인가?

3. 어떤 손실함수를 최소화 할 것 인가?

4. 데이터에서 어떤 특징을 추출할 것인가?

5 어떤 척도를 사용할 것인가​?

​윌 커키어스키

데이터과학자가 되는 것은 여러분이 모든 것에 대해 아무 것도 알지 못할 때까지 더 많은 것을 배우고 더 배울 때 가능하다.

'변수와 특징 선택 입문' An Introduction to Variable and Feature Selection' 이자벨 구용(Isabelle Guyon의 논문) http://goo.gl/3dz8Ar​  부분집합을 먼저 정하고 주요 특징을 찾는 방법에 초점, 

필터filter, 래퍼wrapper, 임베디드embedded 방법

필터

결과변수와의 상관계수 같은 통계량이나 척도에 기반한 순위에 따라 가능한 특징을 정렬하는 것

(예: 하나의 특징 값을 예측변수로 사용해서 선형회귀 실행 후 p-value, r2 등의 값을 기준으로 정렬하는 것)

래퍼

어떤 고정된 크기의 특징들의 부분집합을 찾고자 함. 특정된 크기의 조합을 위해 많은 케이스의 조합분석이 필요함. 이로인한 과적합 발생 가능

1)특징 선택을 위한 알고리즘의 선택과 2)특징 집합이 '좋다'는 판단을 위한 필터나 선택 기준을 정하는 것​

​알고리즘 선택

​단계적회귀(stepwise regression) 알고리즘: 전진선택(forward selection), 후진 제거(backward elimination), 혼합형 접근(combined approach)

전진선택 : 각각 하나의 변수로 회귀분석 후 1등 변수와 2등 변수를 포함한 2개의 변수로 회귀분석, 한번에 하나씩 변수를 추가하면서 분석하다가 성능이 낮아지면 중단

후진제거 : 모든 특징을 포함한 회귀모형으로 시작, 하나씩 예측변수를 빼보고 제일 성능을 좋게하는 제거 변수를 찾아서 제거하고 다시 전체 회귀분석, 하나씩 제거하다가 제거시 성능을 높이는 변수가 없을때 중단

혼합형 접근 (하이브리드 접근) : 최고의 특징부터 시작해서 두세 개의 높은 순위 특징을 취하고, 가장 나쁜 특징을 제거해 나가는 방식의 욕심greedy 알고리즘

선택 기준

R-제곱값 : 모형에 의해 설명되는 분산의 비율

p-값 : p가 0값에 가깝다는 건 회귀계수가 0이 아닐 가능성이 매우 높다는 의미​ (귀무가설 β=0 이 발생할 확률)

아카이케 정보 기준 Akaike Information Criterion(AIC)

​베이지안 정보 기준 Bayesian Information Criterion(BIC)

엔트로피

도메인 전문가의 의견

임베디드 방법 : 의사결정나무

정보획득을 최대화 하기 위한 속성을 선택

랜덤 포리스트

배깅bagging을 통해 의사결정나무를 일반화한다.

나무의 개수인 N값과, 각각의 나무에서 무작위로 선택하는 특징들의 개수 F값을 정하면 된다.​

오분류표

​                  실제=사실                                 실제=거진

예측=사실​    참긍정(TP, ture posivive)           거짓긍정(FP, false positive)

예측=거짓    거짓부정(FN, false negative)      참부정(TN, true negative)

정밀도 precision = TP / (TP + FP)

정확도 accurity = (TP + TN)​ / (TP + TN + FP + FN)

인과 관계 분석시

먼저 상관 관계 파악을 통해 영향관계가 있는 항목을 도출

항목간 (A/B사건)의 시간적 전후 관계 파악 : A가 B사건 보다 먼저 발생하는가?

논리적 연관 관계 파악 : A사건이 일어나면 필연적으로(?) B 사건이 일어나는가?, B사건이 일어나면 A사건이 일어나는가? A/B 두 사건을 모두 일으키는 다른 원인인 C 사건은 없는가?

인과적 질문 : y에 대한 x의 효과가 무엇인가?

고객 행동에 대한 광고의 효과는 무엇인가?

결과에 대한 처리의 효과는 무엇인가?

심슨의 역설 : 변수를 제대로 관리하지 못해 실제 관계와 상반된 관계가 나타나는 현상

아스피린 복용자와 미 복용자의 구분에 따른 X약의 심장발작 확률은 다르게 나올 수 있음(예: 복용여부를 무시하고 분석하면 역상관 적용해서 복용 그룹만 보면 상관인 현상)

루빈 인과 보형(Rubin Causal model)

반응형
반응형

융의 심리학 해설-칼 G.융|캘빈S홀

 

칼G,융(Carl Gustav Jung)

분석심리학의 창시자,

1875년 7월 26일 스위스에서 목사의 아들로 출생.

바젤 대학교에서 의학을 전공하고 부르크휠츨리 정신병원의 원장 오이겐 블로일러 밑에서 심리학 연구를 시작.

프로이트가 말한 억업을 입증하고 이를 '콤플렉스'라 명명.

1914년 정신분석학회를 탈퇴.

인간 내면에 무의식의 층이 있다고 믿고 집단무의식의 존재를 인정했으며

또한 각 개체의 통합을 도모하게 하는 자기원형이 있다고 주장.

1961년 사망.

 

 

1부 나의 이야기는 융이 직접쓴 자서전인 것 같은데.... 이해하기 어려웠다.

개인의 인생사를 살펴보면 

영웅전처럼 스팩타클하고 소설처럼 재미있을 줄 알았는데...

그렇지 않았다. ^^

뒷부분의 분석법-확대법, 상징, 꿈의 해석 등은 재미있는 내용이었다.

 

 

그는 사람의 성격을 '내향형'과 '외향형'으로 나누고 '콤플렉스'라는 개념을 만든 것으로 유명하다.

인간을 위협하는 것은 더 이상 외부의 조건이 아니라 인간의 마음, 집단의 마음에서 온다는 사실을 알아야 한다고 주장했다. 그리고 고정된 틀로 환자를 보지 말고 다양한 각도에서 이해해야하며 그러기 위해 의사 스스로를 이해할 수 있어야 한다고 했다. (머리말중)

 

2부에서는 융 심리학의 해설로 정신분석학에서 융이 갖는 의의와 위치를 소개한다.

 

 

주요 업적인 집단무의식과 성격유형 부분에 관심이 가서 정리해본다.

 

 

 

  집단 무의식 : 진화와 유전으로 의식이 전이되는 것

정신을 진화 과정 가운데 둔 것 (원시적 이미지, 동물적 조상이 가지고, 경험했던 의식 : 뱀에 갖는 공포, 어둠에 갖는 공포 등)

신체의 진화처럼 정신도 진화했다.

 

집단무의식속에(타고난 이미지 속에) 어머니라는 잠재적 이미지는 출생후 현실의 어머니를 보면서 명확해짐

 

 

집단무의식 = 태고 유형 = 원형

 

태고의 유형 : 페르소나, 아나마, 아나무스, 그림자

- 페르소나 : 사회적으로 생활하면서 생기는 여러 가면(겉면).

이게 너무 강하면 무의식속에 있는 자아는(그림자) 밖으로 나오지 못한다고함. 그림자와 상극 ^^

 

- 아나마, 아나무스 : 남성 정신의 여성적 측면(아나마), 여성 정신의 남성적 측면(아나무스)

 

- 그림자 : 동성인 사람과 관계에 영향을 끼치는 태고 유형 (그림자) : 인간 최선의 것과 최악의 것(동물적인 성향), 강한 페르소나를 키워서 그림자를 잠재울 수 있음. 잠시/오랫동안 숨어 있을 뿐 없앨 수 없음.

 

 

 

융의 성격 8 유형

 

크게 태도와 기능으로 나눔

- 태도 :

내향적(본인, 정신 세계중심 : 취미 독서?)

외향적(외부 세계중심 : 취미 파티?)

 

- 기능 :

사고(고민을 많이함),

감정(공감?, 기복이 심함),

감각(많이 생각 안함, 채험을 좋아함),

직관(생각이 왔다갔다함)  

 

태도와 기능을 곱하기 하여 8개 유형이 나옴

(한 사람의 태도와 주요기능은 무엇인가? 파악)

 

1) 외향적 사고형(DH) :

객관적 사고를 중시-, 다윈, 아인슈타인(자기 안의 감성적 측면을 억압하기 쉽기 때문에 타인에게는 인간적 온화함이 없이 냉혹하고 거만해보임. 객관적 세계에 대해 가급적 많이 배우는 데 노력을 아끼지 않는 과학자이다. 억압이 강하면 기이한 성격이 됨(지킬 박사). 실천적/실제적

 

2) 내향적 사고형(ME) :

자기 자신이 존재하는 현실을 이해하려는 철학자나 실존심리학자. 극단적일때 정신분열증. 쌀쌀 맞아보임. 중요가치가 인간에게 있지 않음, 고집이 세고, 분별없고 거만함.

 

3) 외향적 감정형(KS) :

주로 여성이 많음. 이성보다 감정을 우위에 둠. 변덕을 부리는데 이는 상황에 따라 감정이 바꾸기 때문임. 기분파, 허무함

 

4) 내향적 감정형(HY) :

주로 여성, 남에게 자기 감정을 드러내지 않음. 말수가 적고, 쉽게 접근을 허락하지 않으며 무관심함, 우울/의기소침함 자주 발생, 강한 자부심, 감정이 터지면 폭발력이 큼. 주위사람들 깜짝 놀람.

 

5) 외향적 감각형(MO) :

주로 남성, 외부 사실에 관심, 현실주의적이며 빈틈이 없고 실제적. 미래에 깊이 생각하지 않으며 세상을 있는대로 받아들임, 여색, 행동에 거리낌 없음. 위험행동. 호색가, 탐미주의자, 중독/도착/강박에 쉽게 노출

 

6) 내향적 감각형(YK) :

자기 자신의 정신적 감각에 충실. 예솔을 통한 방식이외에 자기 표현에 어려움, 조용하고 수동적으로 행동, 사고와 감정 결함

 

7) 외향적 직관형(SH) :

주로 여성, 경솔함과 불안정이 특징. 분주하게 돌아다님. 정해진일에 쉽게 싫증.열정을 다해 뛰어들지만 믿음직한 친구를 만들지 못함. 다양한 취미/금방 싫증

 

8) 내향적 직관형(HH) :

예술가(몽상가, 예언가, 기인, 망상가), 본인을 남들에게 이해받지 못하는 천재로 생각. 의사소통 어려움. 직관은 좋으나 발전시키는 사람은 다른 사람들.

 

이러한 태도와 기능들은 어느 정도 의식적으로 발달해 있거나, 무의식으로 잠재되 있다.

(다른 말로 무의식이 표출되면 전혀 다른 유형으로 나올 수 있다)

8가지 틀로 인간을 나누고자 한 것이 아니라 특징적 체계를 보여주고 있다.

 

따라서 (물론 100%는 아니지만 그래도) 성격 유형을 고려해서 인생을 살면

아닌 것 보다 행복하게 살아갈 수 있지 않을까 싶다.

(직업, 결혼, 취미 등..... 물론 가끔 무의식이 튀어 나올 때도 있겠지만... ^^)

 

 

반응형
반응형

설득 제대로 배우기-커트 모텐스

 

설득 제대로 배우기

작가
커트 모텐스
출판
황금부엉이
발매
2014.04.14.

리뷰보기

 

8. 설득의 영향력을 극대화 하는 비결

발견 => 고안 => 전달

 

상대 유형 파악 (적대적, 중립적, 지지적, 무정보?)

상대 유형별 대응 (아래 참고)

 

 

수용성 측정 및 대응 (적대적, 중립적, 지지적, 무정보)

ㄱ. 적대적 상대 대응법

- 공동의 가치/신념 발견

- 초기 공격 금지

- 유머사용 긴장 완화

- 많이 이해하고 있다는 인상주기

- 설득할 한가지만 집중(다른 얘기는 언급 지양)

- 설득하려는게 아니라 결국 원한는 것을 얻기 위함을 강조

- 감성, 성실, 연결성/균형 법칙 이용

 

ㄴ. 중립적 상대 대응법 (무관심한 상대)

- 상대에게 돌아올 혜택 강조

- 안됬을때 불이익 강조

- 개입의 법칙 사용(참여시킴, 당신이라면 어떻게 하겠습니까?)

 

ㄷ. 지지적 상대 대응법

- 영감을 불어넣어 에너지와 열정을 증대 시켜라

- 약점을 미리 (살짝)공유 : 예방주사 처럼 이후 다른 사람으로 부터 들었을때의 충격 약화

- 존중/기대의 법칙 사용 : 칭찬, 믿고 있다. 등등

 

ㄹ. 정보없는 상대 대응법

- 질문해서 상대의 기대, 생각, 의도, 욕망을 찾아내라

- 간단/솔찍하게 표현

- 사례/통계 등 객관적 근거 사용

- 부조화법칙 사용 : 헌신을 이끌어내고 -> 부조화를 야기 시키고 -> 해결책을 제시하고

 

 

 

 

 

1. 부조화 법칙

 : 부인 -> 재구성 -> 조사 -> 분리 -> 합리화​

말도안되, 어떻게, 사기아냐?, 내가 얘기한건 xx이런거였어, 그래도 xx이런건 좋아.

 

활용방법 : 이미 원하는 쪽으로 결정된 것으로 생각하게 만드는 방법

말도안되게 엄청싸네, 이런이유에서 그렇구나, 보증을하는 데도 있고 많이 나가고 있고, 내가 결정하면 최소한 이건 얻을 수 있겠네...라고 생각하게 설명해줘야함.

합리적인 이유, 사기가 아닌 근거, 당신이 얻을 수 있는 최소한의 이득/편리

 

활용단계

ㄱ. 헌신을 이끌어 내라 : 공개적으로 만들라. 자발적임을 확인하라. 도움을 주고 서로 협력을 해서 매우 잘 진행해 왔다.

ㄴ. 부조화를 야기 시켜라 : 필요하다고 말씀하지 않으셨습니까? 그렇다고 하셨죠?!

ㄷ. 해결책을 제시하라 : 이렇게 하시죠,....

 

2. 채무감의 법칙

: 보은의 법칙

: 작은것은 선심쓰고 큰것을 챙김 (맛보기) : 순수한 호의로 보여야함. 안그러면 안받음. 약간 부담스러운 정도가 좋음

 

3. 연결성의 법칙

결속력을 강화시키는 비밀의 법칙

유사성/공통성으로 결속력을 높여라 : 상대의 말/행동을 따라 하면 상대가 호의를 갖게된다 (미러링)

비경, 매력/외모, 친숙함, 생각/도덕관.

눈보기, 이름 부르기, 유머, 미소, 존경심을 갖게하라.

 

4. 언어 포장의 법칙

단어선택, 목소리 크기, 말하는 속도, 목소리 톤

 

비행기 기내 방송용어 

구명도구    -> 부양장치

구토용봉투 -> 위생봉투

비행기 고장 -> 기술적 오류

청소           -> 리프레쉬

 

치과 용어

고통스럽다 -> 불편하다

뽑다 -> 제거하다

손도끼 -> Big H

칼날 -> #12

 

침묵으로 찬물끼얹는다.

생생한 언어로 상상하게만들어라

 

하지만(설득에 안좋음),

그리고(설득에 도움)

~하라(명령어 안좋음)

~하자/하죠(권유 가 설득에 도움)

 

5. 대조의 법칙

50만원 보험 Vs 하루 커피 1잔

살코기 75% 햄버거 Vs 지방 25% 햄버거

비교기준을 확 높여 놓고 낮은 것을 제시하면 수락

- 3년간 헌혈 요구 후 한번만 헌혈 요구(49% 수락) 후 연락처 요구(84%승락)

- 한번만 헌혈 요구(31%) 후 연락처 요구(43%승락)

 

6. 기대의 법칙

자동차 판매원

산악지대에서 이 차의 움직임을 한번 느껴 보신다면, 손님께서는 이차를 사랑하실 수 밖에 없을 껍니다.

==> 구체적인 이미지, 감정을 주입 시키고 이미 구매한 것처럼/동의한 것처럼 말함

 

시간에 대한 기대 : 모두가 시간의 노예. 마감을 채운다. 닥쳐야 일함

 

명성에 대한 기대

- ㅇㅇㅇ하는 능력에 깊은 인상을 받았습니다.

- 당신 덕분에 어려운 ㅌㅌㅌ프로젝트를 성공했습니다.

 

목표는 성과를 결정한다.

 

7. 개입의 법칙

참여증가 시키기, 환경조성하기, 주의력 유지하기, 질문이용하기, 솔깃한 이야기, 반복하고 재포장하기, 이위움/주의력 분산, 경쟁창출, 오감 개입 시키기

촨경조성하기 : 골동품점의 상품은 정리되어있지 않음: 진귀한 물건을 어렵게 발견한 느낌을 주기 위해서....,   기타 무료 체험 기간

 

8. 설득의 영향력을 극대화 하는 비결

발견 => 고안 => 전달

 

수용성 측정 및 대응 (적대적, 중립적, 지지적, 무정보)

ㄱ. 적대적 상대 대응법

   - 공동의 가치/신념 발견

   - 초기 공격 금지

   - 유머사용 긴장 완화

   - 많이 이해하고 있다는 인상주기

   - 설득할 한가지만 집중(다른 얘기는 언급 지양)

   - 설득하려는게 아니라 결국 원한는 것을 얻기 위함을 강조

   - 감성, 성실, 연결성/균형 법칙 이용

 

ㄴ. 중립적 상대 대응법 (무관심한 상대)

   - 상대에게 돌아올 혜택 강조

   - 안됬을때 불이익 강조

   - 개입의 법칙 사용(참여시킴, 당신이라면 어떻게 하겠습니까?)

 

ㄷ. 지지적 상대 대응법

   - 영감을 불어넣어 에너지와 열정을 증대 시켜라

   - 약점을 미리 (살짝)공유 : 예방주사 처럼 이후 다른 사람으로 부터 들었을때의 충격 약화

   - 존중/기대의 법칙 사용 : 칭찬, 믿고 있다. 등등

 

ㄹ. 정보없는 상대 대응법

   - 질문해서 상대의 기대, 생각, 의도, 욕망을 찾아내라

   - 간단/솔찍하게 표현

   - 사례/통계 등 객관적 근거 사용

   - 부조화법칙 사용 : 헌신을 이끌어내고 -> 부조화를 야기 시키고 -> 해결책을 제시하고

 

 

반응형

+ Recent posts