2012년 <빅데이터, 경영을 바꾸다>의 후속편?
빅데이터의 기술과 파급의 영향도가 넓어진 상황에서 이를 (기술과 유행 및 효용성)을 이용해서 성공한 많은 기업들이 나오고 있다.
작가는 이러한 기업의 유형(비즈니스 모델)을 다섯가지로 분류하고 각각의 특성과 주요 사례 및 동향을 설명하고 있다.
2012년 중반 해리서 머피(Harris H. Murphy) 등이 데이터 과학자 대상의 설문 조사를 통해 데이터 과학자들의 기술, 경력, 경험, 과업들을 분석해서 데이터 비즈니스맨, 데이터 창출자, 데이터 대리인(data developer), 데이터 연구가(data researchers) 4가지로 구분했다. 여기에 작가는 빅데이터 응용가라는 구분을 추가한다. 빅데이터 응용가는 빅데이터 과학자들 중 하나의 응용 분야에 집중하는 것이 빅데이터 응용가 비즈니스 모델이라고 정의한다. 앞의 4가지 구분은 다른 책에서도 많이 소개되는 내용이다.
넓고 다양한 기업의 사례를 제공하고 있어서 빅데이터 사업/비즈니스 모델을 고민하는 사람이라면 반드시 읽어봐야할 좋은 책이다. 책을 읽고 흥미있는 사례를 찾아서 좀더 연구하면 재미있는 결과가 예상된다.
시공존
데이터 비즈니스맨
상업적 활용이 가능한 데이터가 많은 기업에서 데이터를 가공/분석하기 보다는 활용 방안을 찾는 전문가(사업과 도메인 데이터의 활용을 연결하는 역할)
루미나, NTT도코모 인사이트, JR동일본
데이터 창출자
데이터를 분석해서 새로운 정보/지식을 만들어내는 기술 전문가로 고차원의 수학/통계학/컨퓨터공학/물리학 등의 이론과 기법을 분석에 적용하는 사람
액시엄(Acxiom), 팩추얼(Factual), 맵마이런(MapMyRun), 매직밴드(MagicBand)
데이터 대리인(Data Developer)
데이터 관리를 전문으로하는 사람. 업무 과정에서 많은 데이터가 발생하는 기업들에선 데이터를 분류, 정리, 저장, 유지 하는 일
뉴턴(Knewton), 넘버파이어(NumberFire), 산산(Sansan), 소크라타(Socrata): 공공기관이 오픈 데이터를 이용해 대국민/시민 서비스를 제공할 때 필요한 데이터 저장과 접근, 시스템 연결 인터페이스 개발 및 성능 관리를 위해 보안과 시스템의 확장성을 갖춘 플랫폼을 제공
데이터 연구가
분석기법보다는 특정 분야나 산업의 지식에 정통해 자신의 전문 분야에 데이터를 활용하는 사람
데이터 응용가
데이터 비즈니스맨이 기존 사업에서 파생되어 축적된 데이터가 비즈니스의 핵심 자산인 모델이라면 빅데이터 응용가는 데이터로 기존 서비스를 혁신한 스마트한 서비스가 핵심인 모델
당신보다 당신을 더 잘 알지도...액시엄
액시엄의 개인정보 내용
- 개인정보 : 취미, 관심사, 친구, 가족 관계
- 기본 데이터 : 이름, 주소, 성별, 인종, 직업, 교육수준, 결혼 여부, 자녀숫자, 자녀의 나이/성별
- 삶의 변화 계기 : 결혼, 주택 구입, 이사, 임신 및 출산, 자녀의 대학 진학 여부
- 재무 정보 : 상품 구매 정보, 월급, 자산(부동산, 차랴8ㅇ) 상황, 장기 주택담보대출 등의 상황
- 공공기록 : 파산 신청, 이혼 신청, 범죄 기록 혹은 법정 기록, 교통사고 기록
개인 데이터의 종류
자료: The Sogeti trendlab VINT (2013). No More Secrets with Big Data Analytics
[개인 데이터]
관련 데이터 : 이름, 주소, 전화번호, 이메일 주소, 성별, 교육수준, 직업, 선호 정당, 인종, 사용언어, 나이, 생년월일 등
데이터 수집 : 인종 코드, 사용언어는 성이나 설문조사를 통해 유추. 생년월일은 생명보험 마케팅 같이 특별한 목적을 가진 경우에만 수집하고, 보통 나이나 태어난 연도 혹은 연월 정도만 수집
[가구의 인구통계학적 데이터]
관련 데이터: 어른의 나이 범위, 자녀들의 나이 범위, 어른 및 자녀들의 수, 결혼 상태
[가구의 관심 사항]
관련 데이터 : 독서, 음식/요리, 음악, 여향, 운동, 건강, 자기계발, 취미, 애완동물, 스포츠, 수집, 투자, 컴퓨터/전자제품, 집수리/개선, 게임, 사진 등
데이터 수집 : 설문조사, 가구원들이 관심을 표명하거나 구입한 물건, 서비스 등으로 유추. 한가구의 관심사는 여러가지일 수 있음
[가구 구매 행태]
관련 데이터 : 구매 빈도 및 종류 지표, 소매 및 우편 주문 구매 지표, 기부 지표, 지역사회 참여도, 미디어 채널 사용 지표, 구매 채널 선호도, 평균 우편 구매 금액 및 빈도 지표, 구매 점포 유형 지표(구매 종류 지표에는 옷, 집수리/개선, 책, 컴퓨터/전k제품, 소형 도구 등이 포함. 구매점포 유형에는 일반 소매점, 전문점, 고급 백화점 등이 있다.
[가구의 라이프 이벤트]
관련 데이터: 새로 부모가 된 사람들, 부모가 될 것으로 예상되는 사람들, 새로 운전면허를 취득한 십대, 대학 졸업자, 자녀는 떠나고 부부만 사는 사람들(Empy Nester), 이사한 사람들, 최근 주택 구입자, 최근 장기주택담보 대출자, 최근 결혼한 사람들, 이혼한 사람들, 독립한 자식들, 새 차를 구입한 사람들.
데이터 수집 : 설문조사나 공공 기록을 통해 수집
[가구 생애 단계(Life Stage)그룹(퍼소닉스에 따른 분류)]
관련 데이터: 액시업의 퍼소닉스(Personicx)는 가구의 종류를 구분하는 싯템으로, 미국의 가구들을 특정 고객이나 인구통계학적 특성에 따라 70개 그룹 중 하나로 분류. 이런 분류 그룹으로는 '꼭대기 거주자(Summit Estates)', '커리어 중시 싱글(Career-Centered Singles)', '농촌 선호(County Ways)', '어린아이와 장남감, 축구와 SUV, 도시 생활 즐기기, 애플파이 가조그 롤링스톤 등
[가구 재산 지표]
관련 데이터: 신용카드 유형 지표, 가구의 수입범위, 수익을 내는 자산 지표, 가능성 있는 투자자 상태(Likely Investor Status), tnswktks qjadnl.
데이터 수집 : 신용카드 유형 지표는 카드 종류(은행카드, 여행카드, 백화점카드 등)정보에 한정된다. 특정 신용카드 데이터를 보유하는 것은 아니다. 재산과 관련된 모든 지표는 구체적 수준이 아닌 요약된 범위(range)로 표현되며, 부의 구체적 수준을 드러내지 않는 데이터 소스로부터 도출된다.
[가구 부동산 데이터]
관련 데이터 : 주택 소유자/세임자, 거주 기간, 주택 구입연월, 주택 건축 연월, 주거 유형, 주거지의 넓이, 부동산의 특징, 주택 대출 규모, 주택의 시장가치 , 주택의 평가각치, 주택 대출액 대비 가치 비율.
데이터 수집 : 부동산 기록과 평가기관으로부터 수집된다.
[가구 차량 데이터]
관련 데이터 : 연식, 제조업체, 차량 가치, 차량 라이프 스타일 지표, 선호 모델 및 브랜드, 중고 자동차 선호도 지표.
데이터 수집 : 자동차 판매점, 자동차 서비스업체/수리점, 차량 보증 기간 연장 등에서 행한 설문조사로부터 수집된다.
[가구 건강 관심사]
관련 데이터; 알르레기, 장애 여부, 당뇨, 관절염, 거동 여부, 콜레스테롤, 동종요법(homeopathic) 정형외과 병력이나 고령에 따른 도움 필요 여부, 선호하는 우편 주문약, 브랜드 선호도, 질병이나 처방약ㅇ 대한 온라인 검색 경향.
데이터 수집 : 설문조사, 구매 데이터로부터 얻어진다.
[가구 소셜미디어 지표]
관련 데이터 : 고객의 소셜미디어에 대한 일반적인 관심과 이용 정도, 이용하는 사이트 소셜미디어 내에서의 활동성 수준.
데이터 수집 : 개인이 포스팅한 글의 내용이나 친구 목록, 기타 공공 정보가 아닌 것은 수집하지 않는다. 소셜미디어 정보는 데이터 수집이 허용된 소셜미디어 사이트의 공개된 정보에 한정된다.
EMC의 빌 슈마르조(Bill Schmarzo)는 데이터가 돈이되는 경우를 3가지로 정리
1. 자신이 보유한 데이터(분석한 결과와 함께)를 잘 포장해 다른 기관에 판매하는것
2. 자신의 상품이나 서비스에 분석 기법을 적용해 인텔리전트한 제품을 창출하는 것이다.
3. 유용한 정보를 추천해 고객과의 관계를 긴밀히 하고 고객의 경험을 높은 수준으로 재구현하는 것
빅데이터를 이용한 로켓퓨얼의 실시간 광고 매칭 과정
자료: Rocket Fuel Advertising That Learns (2013.10)
슈퍼컴퓨터로 경영컨설팅에 도전하다 - IBM의 왓슨(Watson)
왓슨의 5가지 능력
- 일상적인 사람들의 언어 표현을 이해하는 능력
- 동시에 여러 개의 답을 찾고 이들의 신뢰성을 평가하는 능력
- 담의 정확도를 높이기 위해 계속 반복해서 질문하고 답하는 능력
- 다양한 비정형 데이터를 다루는 능력
- 자기학습능력
왓슨이 질문에 답하는 과정
- 질문
- 질문 분석
- 가설 설정
- 답변의 근거 수집 및 평가
- 답변의 최종 신뢰도를 결정하기 위한 가중치 부여 및 통합
IBM Watson: Beyond playing Jeopardy p18
http://www.lanl.gov/conferences/salishan/salishan2012/Frase.pdf
스포티파이 사용자 프로파일링(Profiling)
소리의 특성, 청취자의 특성, 청취 형태 3가지를 결합하여 사용자 프로파일 생성
- 음향적 특성(acousticness) : 노래의 음향적 특성을 점수화
- 음악가 친밀도(artist affinity) : 특정 음악가에게 느끼는 친말도
- 음악가 인기도(artist hottness) : 음악가의 최근 온라인 활동 정도
- 춤추기 용이성(danceability) : 노래가 얼마나 춤추기에 적합한가의 정도 (그러면 얼마나 마음을 편하게 하는가, 얼나마 잠들기 좋은가 등도 가능할까?)
- 지속도(duration) : 초 단위로 측정한 노래 길이
- 에너지 : 노래의 전반적인 에너지
- 라이브 수준 : 노래가 라이브로 녹음되었는지 여부
- 소리 크기 : 노래의 전반적인 볼륨
- 노래 인기도 : 최근 온라인상에서 노래의 인기도
- 말의 양 : 노래 가사의 양
- 템포 : 노래의 분당 비트(BPM)
스포티파이는 취향 프로파일링 기술을 이용해 사용자가 음알을 즐기는 특징을 포착해 개인의 취향 및 선호를 파악하는데, 아래 5가지의 특성을 반영한다.
- 모험심 : 평소 편안하게 듣는 범주 밖의 음악을 얼마나 자주 듣는가
- 다양성 : 청취자의 선호 스타일과 음악 장르가 얼마나 다양한가
- 참신성 : 옛날 음악 대비 새로운 최신 음악에 대한 청취자의 선호도는 어떠한가.
- 지역성 : 청취자가 선호하는 음악가의 출신 지역이 전 세계적으로 얼마나 광범위한가
- 주류성 : 무명 음악가 대비 유명 음악가에 대한 청취자의 친밀도는 어떠한가
청취 형태
- 평소에 듣는 음악가
- 평소 듣는 노래
- 좋아하는 음악
- 싫어하는 음악
- 음악에 대한 평가
- 듣다가 건너 뛰는 음악
이런 프로파일을 통해
- 1. 각 사용자가 스포티파이가 제공하는 서비스에 얼마나 가치를 두는지 평가하고 예측하며,
- 2. 고가치 청취자 그룹에 맞춤화된 고객 경험을 제공하는 서비스들의 음악적 특성을 찾아내고,
- 3. 타킷 광고를 위한 고가치 청취자 그룹의 수익 창출에 도음이 되는 이들의 심리적 특징을 파악한다.
또한 단순이 음악이 아니라 음악적 정보에 대한 고객의 갈증을 해소하는데 도움이 되는 정보를 맞춤 제공. 검색과 웹 피드를 통해 음악가와 관련성이 큰 최신 정보를 실시간 제공, 음악가의 최근 활동, 이미지,포스팅 글 등...
제스트파이센스
7만개의 변수로 신용평가 후 대출 서비스
기계학습을 통해 신용을 산출하고 사람이 보정처리하여 업무에 사용
개인 파산에 대해서도 기계학습으로 만든 모델이 파산 후 경과 연수를 산출하고, 전문가가 그동안 가계의 개선 현황을 분석해 반영한다. 그래서 개인의 파산 경력을 기존 평가 알고리즘처럼 단순히 부정적으로만 보지 않고 유통성 있게 해석한다. 이렇게 해서 모든 대출자에 대한 상세하고 정확한 위험도 프로파일이 작성된다.(대출 신청서 작성시 대문자로만 작성하는 사람이 대소문자를 함께 쓰는 사람 보다, 그리고 대소분자를 정확히 사용하는 사람보다 연체 가능성이 높다고 한다.
기존 신용평가 방식에 비해 거의 60%개선, 대출상환율도 기존 방식에 비해 90% 높았다.
312 페이지
불완전한 데이터를 이해하는 위상수학
위상수학 : 사물의 모양이나 상태를 말하는 형상의 본질(즉, 수학적 특성)에 대해 연구하는 수학의 한 분야다. 어떤 형체를 측정하고, 그 형체를 압축된 수학적 결합 공식으로 표현하며, 그 표현의 진실성을 검증하는 것이 위상수학의 주된 주제다. 위상수학에서의 형상이란 데이터 포인트들과 이들 관계의 집합을 의미하는 것으로 ......즉, 수많은 데이터를 위상수학을 통해 압축하고 단순하게 표현하면서 그 속에서 의미(즉, 본질)를 찾을 수 있게 된 것이다.
목차
Prologue | 미래기업의 현재를 읽다
Chapter 1 미래기업의 열쇠, 빅데이터
Intro : 사람도, 기술도, 비즈니스도… 이제 변했다!
01 | 새로운 산업 지형, 빅데이터 생태계
02 | 빅데이터 비즈니스 모델이 만드는 미래기업
03 | 빅데이터 비즈니스 모델의 5가지 유형
Chapter 2 빅데이터 비즈니스맨
Intro : 축적된 데이터를 사업화하라!
01 | 구직·구인 정보로 노동 시장을 예측하다 : 몬스터 거버먼트 솔루션스
02 | 스페인어 방송사에서 히스패닉 마케팅 전문가로 : 루미나
03 | 교통카드 사용 내역도 쌓이면 돈이 된다?! : JR동일본
04 | 통신사가 인구 통계를? : NTT 도코모
Chapter 3 빅데이터 창출자
Intro : 가치를 창출하는 데이터를 찾아라!
01 | 당신보다 당신을 더 잘 알지도… : 액시엄
02 | 맛, 데이터로 증명하라! : 푸드 지니어스
03 | 감성 대신 논리로 패션을 보다 : 에디트
04 | 팩트를 잡아라! : 팩추얼
05 | 자산이 된 신체 정보 : 아이웨어랩
06 | 사물인터넷의 미래를 제시하다 : 웨이즈
07 | 사람들을 달리게 하라! : 맵마이런
Chapter 4 빅데이터 대리인
Intro : 스마트한 대리인이 되라!
01 | 유전체 연구의 대중화를 선도하다 : 넥스트바이오
02 | 공공 데이터는 공개되어야 한다! : 소크라타
03 | 광고 산업의 미래로 날아가다 : 로켓퓨얼
04 | 판타지 스포츠 경기의 승리자 : 넘버파이어
05 | SNS 데이터 속에 모든 답이 있다! : 데이터시프트
06 | 데이터로 교통을 지배하다 : 인릭스
07 | 디지털 맞춤 교육의 시대는 이미 시작되었다! : 뉴턴
08 | 기업을 대신해 위험에 대처하라! : 리슨로직
09 | 잘 관리된 명함은 고객관리의 원천이다 : 산산
Chapter 5 빅데이터 연구자
Intro : 연구 자체를 사업화하라!
01 | 농식물 빅데이터에 전문지식을 더하다 : 에보젠
02 | 인간 유전체의 비밀을 해독하라 : BGI
03 | 비즈니스 노하우를 빅데이터 사업으로 : 히타치글로벌센터
04 | 슈퍼컴퓨터로 경영컨설팅에 도전하다 : IBM의 왓슨
Chapter 6 빅데이터 응용가
Intro : 고객의 속까지 알고 서비스하라!
01 | 스티브 잡스를 울린 음원 유통 시장의 파괴자 : 스포티파이
02 | 7만 개의 변수로 신용을 평가하다 : 제스트파이낸스
03 | 날씨 데이터로 보험을 설계하다 : 클라이미트 코퍼레이션
04 | 중고차 가격의 불신을 해소하다 : 카센서 넷
05 | 불확실한 미래에 도전하는 법 : 이토큐에몬
Epilogue | 국내 빅데이터 비즈니스 모델 기업은 어디쯤 와 있는가?
참고문헌