반응형

빅데이터전쟁-박형준

빅데이터 전쟁

작가
박형준
출판
세종서적
발매
2015.08.31.

리뷰보기

 

 

기술로 인해 발생된 용어여서 그런지 IT기반의 지식을 많이 가진 사람들은 빅데이터를 접근할 때 기술적으로만 관심을 치중한 나머지 실질적인 활용과 이로인한 가치(벨류)를 소홀히 하는 경우가 있다. 이는 사업적인 또는 서비스 적인 접근 방법을 몰라서일 수도 있지만 근본적인 질문에서 부터 시작하지 않기 때문이다. 여기 저기서 빅데이터를 활용하니 좋더라...라는 말을 듣고 우리회사에도 적용해 볼까 라는 생각에서 출발하다 보니 비즈니스에서의 실질적인 문제해결이 중심이 아니라 도입/적용하는데 중심이가고 효과는 차제하고 그저 적용했다는 실적(?)에 만족하는 경우가 대부분이다. 그러다 보니 인프라성의 시스템 구축을 하고 빅데이터를 구축했다는 사례가 많다.

 작가는 이러한 잘못을 범하지 않도록 다년간 실무에서 경험한 사례에 대해서 친절히 설명해 주고 있다. 빅데이터가 구글, 야후, 페이스북 등에서 비즈니스 적으로 효과를 보지 못했다면 오늘날과 같이 많이 알려진 용어는 못됬을 것이다. (과거 가트너가 만든(?) 용어중에서도 업무나 조직이름으로 발전하지못하고 사장된 용어가 얼마나 많았던가!!!) 다시 말하면 빅데이터 기술을 적재적소에 효과적으로 활용해서 비즈니스적으로 성과를 만들어 내야 제대로된 빅데이터 적용 성공사례라고 할 수 있다. 그래서 제일 중요한 것은 비즈니스 벨류인 것이다. 그리고 비즈니스 니즈 또는 문제점(Pain Point)에서 시작해야 한다.

 

 

인상적인 내용

1부 데이터를 버려라

1장 글로벌 데이터 전쟁

전쟁에서 살아남는 법 : 목적이 우선되지 않은 데이터 분석은 실패한다.

데이터로 흥한 자, 데이터로 망한다. : Tesco - 가격민감도가 높은 품목 6%에 대해서만 가격을 낮추고도 경쟁사보다 저렴하다는 소문. 고객의 구매 브랜드 및 상품의 특징 분석을 통해 고객 성향을 도출하여 추천 매장구성에 활용

고객 성향 = 행동성향 + 제품 구매성향

2장 구글TV는 왜 실패했는가?

목적은 문제해결이다. 데이터 분석이 아니다.

3장 그들은 왜 데이터 분석을 하는가?

명함관리 앱 리멤버 : 명함정보 수작업 입력 : 영헙하는 사람들의 명함관리를 도와주는 것

빅데이터 활용은 창조적 문제 해결 이다.

2부 데이터는 사람이다

4장 고객이 되어 생각하라

구매력 지수 솔루션 개발: 구매내역과 인구통계정보 등을 이용하여 경제력을 예측하고, 다른 상품을 얼마나 구매할 것인지 추측하는 것 (돈 많은 고객은 어디서든 활발하게 쇼핑할 것'이라는 아이디어에서 나온 결과) 결과적으로는 실패함. 왜냐하면 고객의 본질 적인 니즈에서 출발하지 않았기 때문. 구매력과 구매니즈는 다름.

5장 빅데이터, 사람에게서 출발하라

 

프로피일링 5 단계 : 고객의 니즈를 이해하는대서 출발하여 우량고객으로 발전 가능성 고객을 발굴해서 프로모션하는 것 

1. 속성 유형 정의

2. 행동 속성 정의

3. 행동 속성 도출 및 프로파일링 적용

4. 상품 속성 정의

5. 상품 속성 도출 및 프로파일링 적용

6. 고객 프로파일링 완성

1. 속성 유형 정의

   : 가설기반 고객 그룹 정의, 그룹을 특징짖는 고객 행동 구분

   충동 구매형, 악세사리 매니아, 가치 추구형  -> 쇼핑몰 방문 행동(왜 방문하는가?), 구매행동(왜 구매하는가?), 상품 성향(어떤 성향으로 구매하는가?), 상품군 유형(무엇을 주로 구매하는가?)

2. 행동 속성 정의

   : 지수화하고자하는 속성들을 정의하는 것

   예)회사에서 쇼핑형 정의 : 온라인 접속시간이 점심시간이나 오후 시간으로 일정하다

       충동 구매형 정의 : 페이지 뷰 횟수가 높고 체류 시간이 길다.

3. 행동 속성 도출 및 프로파일링 적용

   : 가급적 여러 데이터를 통해 행동 속성 지수화

    예) 충동 구매형의 지수화 시 페이지뷰만 가지고하면 정확도가 낮음, 여러 데이터를 활용 지수화 필요

4. 상품 속성 정의

    '대중정이고 무난한', '마니아 들만 구매하는 모험적인', '럭셔리하고 값비싼' 등으로 정의

5. 상품 속성 도출 및 프로파일링 적용

   : 데이터를 통해 상품 속성 지수화

   '대중적이고 무난한 상품' 속성은 상품군 내 시장 점유율로 수치화

   : 프리파일링 적용

     상품 구매량 * 상품 지수

     고객의 유행상품 지수 = (유행지수 100% 상품 * 1개 + 50% 상품 * 2개) / 3

                                      = 66.7%

6. 고객 프로파일링 완성

   : 행동 프로파일링과 상품 프로파일링을 결합해 고객 프로파일을 완성

 

 

고객 구매 단계 프레임워크(AIDMA, AISAS 등과 비교 필요)

구매 필요성 인지 -> 선택 옵션 수집 -> 결정

 

옴니 채널 전략

여러 판매 채널을 보유한 기업에서 채널 간 시너지 효과를 내기 위해 세우는 전략

옴니 채널을 막연히 온라인과 오프라인의 경계를 허물어 고객이 채널을 보다 많이 이용하게 하는 것으로 생각하는 것은 잘못

채널간의 시너지를 증대 시키는 것이 옴니채널의 역할임. 즉, 1.운송 채널활용, 2.쇼루밍 해결, 3.채널 간 교차판매이다.

 

채널 포텐셜(Portential) : 고객이 해당 채널에서 매출을 증대시킬 가능성

 

6장 나이키는 왜 닌텐도와 경쟁하는가?

고객의 접점을 잡는 것이 중요 : 1. 일단 찾아오게하는것, 2 꾸준히 이용하는 충성 고객으로 만들기, 3. 수익화하기

 

현대 데이터 분석의 핵심은 사람, 즉 고객이다. 공급 과잉 시대인 현대에는 최종 구매자의 협상력이 점점 강해지고 고객의 결정권이 커지는 반면, 공급자의 파원는 약화된다. 설상가상으로 경쟁과 대체제의 위협은 갈수록 증가하고 있다.

....

현대에 성장하는 기업은 대부분 지식 기반의 서비스 기업들이다. 특히 글로벌 서비스 기업들의 경우 고객 접점 서비스를 한다는 공통점을 발견할 수 있다. 특정 서비스를 중심으로 플랫폼을 구축해 고객층을 두껍게 확보하고, 나중에 그 수익을 독차지하는 승자전취 방식을 지향하는 것이다.

 

빅데이터 알고리즘을 이용한 포커 선수

많이 구매 할 수록 제품 가격이 떨어지는 코스트코

인간은 1000개의 얼굴을 가지고 있다. (N대 N플랫폼의 시대) : 그래서 페이스북은 지고 카톡이 뜬다.?

 

3부 데이터는 내가 만든다

7장 필요한 데이터를 아는 것이 데이터 분석의 전부다

인간 DNA 중 필요한 부분은 2퍼센트에 불과하다.

   30억쌍의 염기서열가운데 유전자로 작용하는 것은 2퍼센트에 불과

 

외부 데이터 활용 전체 고객 시장/특성 분석(예: 스마트와치 고객 분석)

- 제품 수용 주기상 주요 고객이 될만한 사람들의 대상 그룹 위치 파악(얼리 어댑터, 일반대중, 늦게 따라가는그룹)

- 설문조사 등 데이터를 만들고, 대상 그룹의 데이터 만을 가지고 K-means 분석

- 대상 그룹의 군집분석 결과 n개 집단으로 분류되어 각 집단별 특징을 조사

- 집단중 타겟 집단 선정 (예: 이메일, 음악, 편리 추구 경제력 남성)

- 타겟 집단의 고객들 이 원하는 니즈 파악 (예: 여러기기를 연동해 컨트롤 하는 기능)

- 고객 세분화를 통해 타겟 집단을 구분하는 기준 추출 (제품에 따라 얼리ㄷ어댑터가 다르므로 제품을 사용하는 고객 입장에서 제품 수용 주기상의 위치를 정의해야 한다) 스마트 TV와 스마트 와치의 얼리어댑터 기준은 다르다.

(예: 먼저 접한다는 것에 큰 가치를 두고 있는 사람, 스마트 와치를 구매하기 위한 경제력이 되는 사람)

 

데이터 해석의 목적은 '고객의 행동 원리'를 이해하는 것이다. : 고객이 원하는 것은 많은 기능이 아닐 수 있다. 제품/서비스 구매/사용으로 인한 감성적 기능도 중요하다.- 예: 멋있어보임 mac, iphone

빅데이터가 있다고 되는게 아니고 잘 설계하고 해석하는 과정이 중요하다. 이를 위해 인문학적 통찰과 통계적 추론이 결합된 융합적 사고가 필요하다.

 

글로벌 보험사의 이탈 예측 시스템 : 내부 데이터를 가지고 아무리 분석해도 안된다. 데이터화 되지 않는게 더많다. 그래서 설계사가 이탈 가능성을 더 정확히 알 수있다.

 

신규 제품/서비스를 위한 마케팅 전략 수립 시 내/외부 데이터 활용 분석 과정

내부 데이터를 200퍼센트 활용하는 법

1) 외부 정보로 도출한 고객 유형별 페르소나의 명확한 특징을 찾는다. 

2) 유형별 특징을 내부 데이터로 구분해 유형 판단 방법을 도출한다.

3) 2)를 토대로 내부 데이터(계약정보, 인구통계정보 등)를 가공해 지수화한다. : 예, 지인 영업에 민감한 직장인 남성 구분을 위해 내부 데이터를 활용하여 지방 소도시 거주여부, 경제력 수준, 자녀 아동기 여부, 중견기업근무 등을 데이터/지수로 만듬

4) 3)에서 가공된 지수로 군집 유형을 할당

5) 기타 내부 데이터로 고객을 이해하고 활용

 

 

8장 데이터를 창조하라

피카소는 데이터 과학자이다

피카소는 상대적인 시각에서 보고 표현하로고 애썼다. 그러다보니 입체적으로 그리게 된것이고 입체주의(수단)가 나온거다. 처음부터 입체로 표현하려고 시도했다면 지금의 작품이 안되었을 것이다.

 

고객을 유형별로 나누고, 이용 상권, 이용 시간, 사용금액/빈도 등을 기준으로 고객의 특징을 지수화한 다음, 고객을 군집화하라

 

중요한 것은 우리는 왜 고객을 이해하려 하는가?

 

커피 전문점에 방문하는 고객 중 '업무 목적으로 이용하는 고객' 유형을 분류하고 싶다면, 다음과 같은 특징을 도출할 수 있다.

- 업무시간(평일 9시~오루6시)에 방문

- 1회당 주로 2~3개 구입

- 구매 상품은 주로 음료

- 같은 종류의 제품 재구매 비중 높음

이러한 특징에 따라 '업무 시간 방문 비중'이라는 속성을 하나 정했다면, 고객의 방문 데이터를 토대로 '업무 시간 방문 횟수/전체 방문 횟수'라는 하나의 지수를 만들수 있다. 이러한 지수들을 모아 고객 프로파일링을 하고, 이를 군집화 및 마케팅에 활용하는 것이다.

고객 경험 단계 데이터 가공

1레벨 : 최초 구매 (단기 충성 고객화 : 이해안가?)

2레벨 : 1회성 구매 (유형: 프로모션 체리피커, 간헐적 보수적 구매)

3레벨 : 카테고리 지속 구매(특정 카테고리 충성 고객화)

4레벨 : 충성화 (특정 카테고리 충성고객, 브랜드 충성고객 등 구분)

 

Freemium 수익 모델 : Free + Premium(고급기능)

   무료서비스로 고객을 끌어들인 뒤 고급 기능을 유료화하여 점차적으로 수익을 창출하는 방식

 

 

4부 과거는 필요 없다.

9장 인간의 무의식을 예측하라

  고급 악기만 들면 다 세계적 연주가? 아니다.

 

위험감지 예측 시스템 예

1. 위험 행동 분류 : 고객정보유출, 기밀 유출, 단체 퇴사 등

2. 위험 인문 유형(원인) 정의 및 분류 : 유형 및 원인 정의

3. 실제 위험 행동 및 인물 사례 수집 :

4. 위험 행동 및 인물을 예측할 수 있는 데이터 속성 가공과 도출 : 예 : 조회수, 메일발송내역, 외근내역

5. 위험인물 유형 분류 : 프로파일링 및 클러스터링

6. 더미 회귀분석을 통해 각 속성의 가중치 설정 : 횟수, 시각, 비율, 금액 등의 데이터를 통해 회귀분석

7. 매주 자동 프로그램을 돌려 개인별 위험 유발 행동 확률 계산

8. 일정기간 백테스팅해 모델 검증

 

빅데이터 범죄 예방 시스템

1. 범죄 유형 분류 : 절도, 폭력, 성범죄, 사기 등

2. 가설적 범죄자 유형 도출 및 행동분석 : 생계형, 폭력성, 정신적 열등감, 우울성 등

3. 범죄자의 특징을 나타내는 주요 속성 도출 : 중졸 이하, 무직 기간 12개월 이상, 출소한지 6개월 미만 등일때 생계형 절도 확률이 높다와 같이 특징을 데이터로 찾아낼 수 있는 속성(학력, 무직 기간, 출소 시기)을 최대한 찾아내기

- 통계 속성: 성별, 연령, 경제력, 거주지, 학력

- 범죄 속성 : 복역 횟수, 기간, 출소일 등

- 개인 속성 : 실직, 자산 감소, 무직 기간, 출산, 이혼, 이별 등

4. 범죄자 프로파일링 및 유형 군집화

5. 범죄 확률 도출

6. 시간, 지역, 개인에 따른 범죄 예측

7. 범죄 예방

 

고객 이탈 예측

1. 이탈 원인별 유형 도출

2. 이탈 기준 정의

3. 이탈 원인별 윈백 방안 수립 (중요)

4. 이탈 유형별 데이터베이스 도출 방안 수립

5. 이탈 고객 회귀분석

6. 이탈 원인별 대응

10장 패턴이 있으면 예측 가능하다

내부 데이터 기반 예측

외부 데이터 기반 예측

경로 기반 유행 예측 : 인천->서울->대구->전국

미국 박스오피스 예측 : 요소들간의 연관관계 분석을 진행할 경우 외곡이 심해 회귀분석이 어려움으로 그룹/집단분석(무빙 아날로지) 적용

5부 빅데이터, 결국은 성과다

11장 데이터는 전략이다.

빅데이터도 시어스 를 살릴 수 없다 : 빅데이터 IT시스템 구축에는 성공했으나 고객 가치 창출에 실패

시어스의 강점은 공급자관리와 물류시스템, 지역 고객의 높은 인지도(브랜드파워)였다.

오프라인에서 해결할 수 밖에 없는 제품을 취급하며 전문성을 갖추 기업만이 살아 남는다. 따라서 오프라인기업인 시어스는 성장 시장의 타킷 고객을 정하고 매장을 개선하는 전략을 우선 수립할 필요가 있었음. '소품종 대량생산의 합리형 마트'로 단계적 변환 추진 시 세부 방안 예

1) 현재 충성 고객 수익화 : 캐시카우가 될 고객을 찾아 수익성 높은 제품과 가격을 정해 주기적 프로모션

2) 성장 타킷 고객 선정 및 매장구성: 상품DB에서 가격에 민감한 품목을 선정하고 고객DB에서 할인 민감형 고객을 찾아 매출 시나리오를 기반으로 재무적 수익성을 판단. 인터뷰/리서치를 통해 전문 매장 구성 준비

3) 소품종 대량생산을 위한 수직 계열화 : 기본 판매량 예측. 생산자를 만나 구체화 검토

4) 진입 상권 전략 : 고객 군집화를 하고 상권별 고객 분포를 파악한 뒤 수익성을 판단해 진입 여부를 결정. 진입 시 군집 상품군과 유행 상품 예측을 통해 전시 상품 구성

아마존으로 보는 온라인 커머스 데이터 전략

: 도서 구매 고객에만 집중(타킷고객 명확화 및 충성고객화) -> 킨들 저가 공급 ->엔터테인먼트와 콘텐츠 서비스 제공 -> 고객 트래픽 증대

오프라인 백화점의 (VVIP) 고객 관리와 비교 필요

온라인 쇼핑몰의 알고리즘 자동화

- 첫화면 구성: 고객에게 만족감 전달(1. 오퍼를 잘 갖추어 놓았다. 2. 언제나 들어와 놀 수 있게 신상품 출시, 재미있는 이벤트 등이 자주 발생한다) 고객의 성향을 파악해 적립금, 타임세일 쿠폰, 증정품 등을 선별해서 제공

- 방문 의도 분석 및 대응 : 인간은 언제나 자신의 성햐에 따라 기계적으로 행동하지 않는다. 프로파일에 따른 응대는 기본이지만, 의도를 알아차리고 대응하는 것은 또다른 과제임.

1)의도 유형 정의 : 기초조사/인터뷰를 통해 확인 (위도쇼핑, 옵션비교, 구매, 타인 구매 등)

2)의도 파악 모델링 : 예) 검색어에 '아웃도어'를 검색하면 명확한 브랜드나 상세 기능에 대한 배경 지식이 없고 무난히 판매되는 제품을 찾으려는 의도로 파악 가능, '남성 재킷', '선물' 등을 검색하면 배우자나 지인에게 일회성 선물하려는 의도로 파악 가능

3)유형별 대응 모델링 : 의도별로 미리 분석된 데이터를 가지고 실시간 대응

- 정보 탐색 지원 : 실시간 연관 상품 추천, 맟춤형 오퍼로 행동을 촉진(타임세일, 품절임박:재고량 표시 등)

- 구매 결정 및 추가 구매 유도 : 장바구니에 담은 상태 이후의 과정

- 만족도 관리 : 고객에게 혜택을 먼저 챙겨준다 (상품권지급, 쿠폰사용법 안내, 포인트사용 제안 등), 연관상품 안내

- 충성도 관리 : 주기적 전화/문자/메일 등 맞춤형 관계 유지, 성향에 맞게 정보 제공(할인에 민감한 고객에게는 세일행사 안내), 고객별로 민감한 매체와 오퍼, 문구 등을 개인화하여 전달하는데 우편물과 같이 개인화불가 매체시 그룹을 나누어 내용구성(프로파일, 클러스터 결과 활용)

12장 빅데이터, 산 넘어 산

엘리트의 몰락

관도대전, 적벽대전, 이릉대전

관도대전 : 원소의 70만 대군이 7만도안되는 조조군에 패한 전투(모든 것이 완벽하더라도 실행 과정에서 한가지만 놓치면 패배하게 된다, 는 의미)

성과를 내는 법칙

성과 실현의 걸림돌 해결을 위한 방안

1) 실행 프로세스를 최대한 간결하게 유지 :  한 프로세스를 가능한 짧게 하고 프로세스 전체를 바라보는 핵심인력이 필요

2) 조직의 문제를 파악하고 해결한다. : 이해관계자가 많아지고 이것이 업무 프로세스에 영향을 준다. 따라서 비즈니스-IT 역량을 갖춘 데이터 분석가가 직접 프로그램을 구현해 시스템에서 바로 작동할 수 있게

3) 초기 성과를 보여준다. 성과가 날 수 있는 부분에 집중

반응형
반응형

빅데이터 인간을 해석하다-크리스티안루더

 

빅데이터 인간을 해석하다

작가
크리스티안 루더
출판
다른
발매
2015.07.24.

리뷰보기

 

작가는 미국의 유명한 연애중계 사이트를 운영하면서 경험한 데이터 분석 내용을 소개 하고, 빅데이터가 가져올 세상에 대한 이야기를 풀어내고 있습니다.

특히, 사이트를 운영하면서 경험한 여러가지 테스트(?)와 현상 및 이것이 시사하는 바를 설명해줍니다. 앞으로 인문/사회학 연구를 위해 통계 설문조사를 할 필요 없이 SNS(빅데이터)를 이용하면 된다고 합니다.

책 내용은 전체적으로 무엇이 우리를 연결시키고 분열시키고 만드는지를 설명하고 있습니다.

 아무래도 연애사이트를 운영해서인지 남여간의 연결을 먼저 설명하는데 흥미롭습니다. 왜냐하면 단순히 그럴 것 같다라는 내용을 구체적인 데이터로 설명합니다. 예를 들면 외모의 차이는 연령이 증가함에 따라 어떻게 변할까? 라는 것입니다. 여자가 이성을 원하는 나이는 일반적으로 자신의 나이와 비슷한 남성들을 선호 한다고 데이터는 말합니다. 반대로 남성은 겉으로는 자신의 나이와 비슷한 여성을 선호 한다고하지만 실제로는 20대 초반에 여성에게 호감을 느낀다고 합니다. 중요한 것은 이러한 내용이 과거의 소규모 설문을 통해서 나온 것이 아니라 수만(?)의 실제 데이트 신청 내용을 바탕으로 분석한 결과라는데 의미가 있습니다. 즉, 빅데이터를 이용한 분석이라는 것이지요. 조금 더 분석하여 남성과 여성이 나이에 따라 매칭이 되는 비율을 비교한 결과 여성이 이성으로 가장 대우(?)받는 시기를 분석해 냈습니다. 이러한 분석은 기존의 통계적인 분석 방법을 통해서는 발견하기 어려운 부분이라고 할 수 있습니다. (물론 이미 데이터가 확보되어있기 때문에 비용대비 효과가 좋다고 말할 수도 있지요). 

여성의 경우는 미모의 정도에 따라서 쪽지나 매칭이 기하 급수적으로 증가한다고 합니다. 상대적으로 미모가 낮은 여성의 경우 연애 사이트에서는 자신을 특화 시켜서 남성들에게 선택 받는 전략이 더 효과적이라고 말합니다. 결국, 결론은 '나답게, 자신감을 갖고 살자' 입니다. 남들과 똑같아 지기위해 자신을 맞추려 하는 행위는 확실한 역효과를 낳는다고 주장합니다.


페이스 북의 네트워크 분석을 통해서는 연애상대 매칭 뿐만 아니라 결혼/이혼 가능성 까지 분석 가능하다고 합니다. 네트워크 분석의 시조격은 프로이센 쾨니히스베르크에 전해 내려오는 구전 설화로 '마을에 있는 7개의 다리를 모두 하ㄴ번씩만 건너서 시작점으로 돌아오는 것은 불가능하다' 라는 내용이 있답니다. 이를 수학 천재인 오일러가 1735년에 실화가 사실임을 수학적으로 증명했다고 합니다. (들어왔으면 나가는 다리가 있어야 하기때문에 짝수의 연결이 필요하다) 또한 스탠리 밀그램은 6단계 분리 이론을 완성했다고 합니다. 오마하의 시민 100명에게 설뭉을 하여 6단계만 거치면 누구와도 연계 가능하다는 것을 찾아냈다고 합니다.

실제로 페이스북의 경우 2011년에 7억 2100만 계정중 99.6%가 6단계 이하로 연결되었다고 합니다.


이렇게 빅데이터를 분석하면 많은 것을 알 수 있는데 실제로 알게된것이 원하는 것이었는지 모를 수 있다면서 아래와 같이 얘기합니다.

온라인 세상에서는 언제나 원하는 것을 손에 '넣을 수'있다. 하지만 진짜 원하는 것을 ㅆ듬알기란 훨씬 힘들다.

다시 말하면 정보가 많을 수록 조건을 걸거나 원하는 필터를 통해 딱 맞는 데이터를 찾을 수는 있지만 그 데이터가 진정으로 원했던 정보인가는 확인하기 어렵다는 의미 인것 같습니다.


여성의 외모는 데이트에서의 차별 뿐만아니라 서류/면접 통과 등 직장을 구하는 것에도 큰 차이를 만든다고 얘기 합니다. 남자의 경우는 외모로의 영향이 크지 않다네요. 그러면서 나오미 울프가 <아름다움의 신화>에서 말한 '오늘날 여성은 그저 '미모'다"라는 대담한 주장이 진실임을 확인했다고 말합니다. 즉, 미모가 사회 생활에 많은 영향을 준다는 얘기죠.. 외모 지상주의다 뭐다 하면서 성형수술 여러번하는 사람들을 뭐라고 할 수 없는 것 같습니다. 실제로 세상이 그러니까요.


침묵속에 도전 받지 않는 편견은 더욱 굳건해 진다라는 말이 인상적이었습니다. 저도 왠만하면 그냥 꾹 참고 넘어가는 성격인데 이러한 자세가 편견을 확대 시키지 않았나 하는 느낌도 받았습니다.


뒤에는 못본 책인데 피터 몬토야의 브랜드로 승부하라를 소개하고  Tom Peters 의  The Brand Called You 라는 말도 소개 했습니다. 요즘 자기 브랜딩으로 유명한 사람들이라는데... 자신의 특징을 찾고 지속적으로 홍보하는 것만이 유일한 성공 방법이다라면서 새롭고 독창적으로 보이는 능력이 중요하다고 합니다.

나의 특장점을 새롭고 독창적으로 보이게.....음.....


주석이 잘 달려있기는 하지만 주로 미국의 사례와 문화적 내용이 있어서 조금 어려울 수도 있지만 미국 사람들은 이런 저런 고정관념이 있구나 하는 것도 알게되어 좋았습니다. 예를 들면 택사스는 전통적인 미국 시골, 휴스턴은 국제도시(?) 등등...

반응형
반응형

[ EDW와 빅데이터 아키텍처 ]

 

앞선 포스팅에서 적은 것 처럼 EDW는 Enterprise Data Warehouse 의 약자입니다.

 

그럼, 요즘 핫한 빅데이터 아케텍처와 EDW와는 어떤 관계가 있을까요?

 

자~ 같이 생각해 보시죠..~ ^^

 

....

 

EDW 구축 방법중 하나, 빅데이터

 

결론부터 말씀 드리면 EDW를 구축하는 방법중의하나가 빅데이터 아키텍처라고 할 수 있습니다.

 

즉, 분석계에서 빅데이터를 구축하려면 EDW라는 개념을 이용할 수 밖에 없다는 말입니다.

 

 

EDW를 구축하는 방법에는

과거 (지금도 대부분의 기업에서) 많이 사용하는 DBMS방법과

빅데이터 기술을 적용한 방법이 있습니다.

DBMS로 구축한 EDW는 훌륭했었었습니다.

 

예전에 데이터가 작을(?) 때에는 좋은 성능의 (UNIX) 서버에 DBMS라는 미들웨어를 놓고 데이터 관리를 하면 대부분이 해결되었습니다.

즉, 전사 데이터의 수집, 저장, 처리, 분석, 활용에 문제가 없었습니다.

개별 시스템 뿐만아니라 기업에서 주요 데이터를 모두 모아 놓아도

 이러한 DBMS 시스템 구성으로 구현이 가능했습니다.

성능도 좋았고 관리하기 편했으며 문제가 생기면 솔루션 제공 벤더에서 해결해주었습니다.

 

그런데 문제가 생기기 시작했습니다.

빅데이터 시대가 되면서

(즉, 스마트폰이나오고 페이스북, 트위터 등 엄청난 데이터가 쏱아져나오면서)

이러한 시스템 구성으로는 문제가 생기게 되었지요.

DBMS로 구성하면 엄청난 비용이 들 뿐만 아니라

실제 구축을 해도 성능이 만족스럽지 못하게 되었습니다.

즉, 전사의 운영시스템에 흩어져 있는데이터를 모두 모아서

적재하고 필요한 데이터로 가공하고 만들어 내는데에 하루로도 부족하게 된 것이지요.

그러니 실적리포트, 대시보드 등의 정보가 2~3일 늦게 나오게되는.....

영~ 서비스를 할 수 없게 되는 것이지요.

그저께 데이터를 처리도 못했는데 또 어제 데이터가 밀고 들어오는 상황인 것이지요

 

그래서 빅데이터라는 기술을 이용하여 EDW를 구성하게 되었습니다.

빅데이터 기술의 EDW를 구성하게 되면 앞서말한 문제점들을 해결 할 수 있습니다.

비용이 싸고

(UNIX보다 훨씬 저렴한 x86 서버에, 오픈소스 솔루션사용으로 솔루션 비용은 공짜)

분산 병렬 처리로 인해 처리할 수 있는 데이터의 량이 거의 무한대에 가깝게 되었습니다.

즉, 대량의 데이터를 싸고 효율적으로 관리할 수 있게 된거지요..

우와~ 여러모로 좋은 방법인것 같지요???!!!

 

 

그러나 모든 것이 그렇틋 장점이 있으면 단점도 있습니다.

무조건 빅데이터 기술이 좋은 것은 아닙니다.

하드웨어, 솔루션의 비용이 대폭 줄어들었지만 대신에 관리의 불편함이 발생하게 됩니다.

장애 발생시 과거에는 DBMS솔루션 벤더에 문의하고 확인해서 버그 픽스하고 패치하면 해결이 됬는데...

(그리고 이런 것을 알아서 벤더에서 해 주었는데...)

빅데이터 기술(오픈소스)를 쓰게 되면서 이런 것들을 직접해야만 하는 수고가 생겼습니다.

그리고 이렇게 직접 하려면 기술적으로 매우 자세한 내용까지 알고 있는 전문가가 회사내에 필요하게 되었지요.

장애나고 문제가 생기면 이제 벤더 탓을 할 수 없게 되었습니다. ㅎ

 

그리고 빅데이터 기술들은 기존의 마트나 분석 툴에 사용되던 DBMS, 상용 툴과의 인테그레이션이 쉽게 되어있지 않아서 어려움이 생기게 되었지요.

 

이러한 장단점을 적적히 섞어서 빅데이터기술과 DBMS기술을 섞어서 구성하는 하이브리드 아키텍처도 많이 사용되고 있습니다.

즉, Raw Data의 저장, 처리는 빅데이터 아키텍처에서 해결하고

기존의 분석 툴이나 서비스에서 활용하기 위해서 DBMS를 이용하는 방법입니다.

 

최근에는 빅데이터 기술의 발전 속도가 빨라지면서 DBMS의 기능을 지원하는 것이 확장되고 있습니다.

그래서 나중에는 빅데이터 기술 만으로도 EDW를 구축할 수 있을 것 같은데...

앞서 말한 여러가지 이유로 아직은 시기 상조인 것 같습니다.

그러나 빅데이터 관련 주요 업체중 하나인 클라우데라는 오라클(ORACLE)과 연계 강화를 통해 기능 강화를 진행하고 있고

호튼웍스도 하이브(HiVE)에 기능을 강화하면서

빠르게 진화/발전하고 있습니다.

 

결국에는 빅데이터 기술이 EDW를 지배하는 시대가 곧 올것 같습니다

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

빅데이터 관점에서 아키텍처(Architecture)란 무엇일까요?

그리고 아키택트(Architect)는 무엇을 해야할까요?

 

 

이를 위해서는 먼저 용어에 대한 정확한 이해가 필요하겠지요?

     // (그전에 잠깐 !!! 왜 빅데이터가 중요한지 알고계시죠? ^^

     //   바로 지난 포스팅에서도 언급되었지만 4차 산업혁명의 핵심 기반이 빅데이터이기 때문입니다.)

 

그래서 먼저 구글에서 조사해 보겠습니다.

구글에서 아키텍처 라고 검색하면 아래와 같이 나옵니다.

 

 

아ː키텍처, architecture
  1. 컴퓨터를 기능면에서 본 구성 방식. 기억 장치의 번지 방식, 입출력 장치의 구성 방식 등을 가리킴. 일반적으로 같은 아키텍처의 컴퓨터에는 소프트웨어의 호환성(互換性)이 있음.

 

 

음...무슨 무슨 방식 이라는 용어가 눈에 들어오네요.

 

우리가 원하는 것은 빅데이터, 그리고 IT시스템과 관련된 아키텍처의 정의를 원하고 있으므로

그 아래 위키 백과에 있는 시스템 아키텍처에 대한 정의가 더 적합 할 것 같습니다.

 

위키 백과에서는 시스템 아키텍처(System Architecture)를 '시스템이 어떻게 작동하는지를 설명하는 프레임워크' 라고 정의하고 있습니다.

그리고 시스템 목적을 달성하기 위한 각 컴포넌트가 무엇이며, 어떻게 상효작용하는지 등을 설명하는 것이라고합니다.

여기서 보니 프레임워크, 컴포넌트, 상호작용 이라는 용어가 눈에 들어옵니다. 그리고 결국 시스템 아키텍처란 시스템을 설명하기 위한 무엇이네요.

위키에서 프레임워크를 계속해서 찾아보니 '복잡한 문제를 해결하거나 서술하는 데 사용되는 '기본 개념 구조'라고 되어있습니다.

컴포넌트는 다른 말로 구성요소 이니, 결국 아키텍처란 '시스템을 잘 설명하기위해 구성요소와 구조, 관계 등을 설명하는 자료' 라고 할 수 있겠습니다.

이해가 되시는지요?

그래서 구글에서 아키텍처라고 검색하고 이미지를 누르면 아래와 같이 대부분이 순서도와 같은 블럭과 선으로 그려진 이미지들이 보이네요.

 

 

 

그래서 아키텍처를 Box-Line Diagram 이라고 부르기도 한답니다.^^

 

사실 아키텍처는 지금으로부터 약 10년전에 유행했었습니다.

바로 엔터프라이즈 아키텍처 라는 이름으로 유행했었죠.

우리가 배운 내용으로 무슨 내용일지 유추해 볼까요?

엔터프라이즈는 기업이고 아키텍처는 위에서 말한 것 처럼 설명을 하기 위한 구성요소, 구조 이니...

풀어서 설명하면 기업을 설명하기위해 정리된 구성요소와 구조, 관계를 말합니다. 이런 것은 대부분 박스와 선으로 그려진 이미지로 정리될 수 있고요.

 

좀더 깔끔하게 정리된 위키 백과의 내용을 보면 아래와 같습니다.

엔터프라이즈 아키텍처(Enterprise Architecture; EA)는 조직의 프로세스 및 정보 시스템 및 부서의 구조와 기능을 포괄적이고 정확한 방법으로 기술하는 방법이고, 이것을 통해 조직이 전략적 목표에 따라 행동하도록 방향을 제시하는 것이다. 정보기술(IT)와 관련이 깊지만, 사업 최적화도 관련이 깊고, 사업구조, 성과관리, 조직구조 아키텍처 등으로 불린다.

 

자세히 보니 기업에서 수립되는 전략을 슬로건이나 경영 방침/목표로 삼고 추진하는 것도 좋지만 엔터프라이즈 아키텍처로 만들어서 이미지로 구체화 하면 더욱 이해하기 쉬울 것 같다는 생각이 들었습니다.

 

엔터프라이즈 아키텍처(EA)는 다시 서브 아키텍처로 구성되는데 주로 4가지로 구성됩니다. 

즉, 비즈니스 아키텍처(BA: Business Architecture), 어플리케이션 아키텍처(AA: Application Architecture), 데이터 아키텍처(DA: Data Architecture), 기술 아키텍처(TA: Technical Architecture) 로 구성됩니다. (EA 이야기는 시간이되면 따로 하겠습니다. 이분야도 엄청나게 넓은 분야여서 설명에 많은 시간이 필요할 것 같습니다. 아! 그리고 4가지 뿐만 아니라 정책, 원칙, 표준, 보안 등 다른 요소를 추가하여 EA를 구성하는 기업도 있습니다. 이는 기업의 업종과 특성에 따라 추가될 수 있습니다. 이런 요소가 포함된 것을 엔터프라이즈 거버넌스라고도 합니다.)

그래도 우리가 배운 지식을 이용해서 짧게 설명하고 넘어가자면 비즈니스 아키텍처는 기업의 비즈니스를 잘 설명하기 위해 구성요소를 정의하고 구성요소간의 관계를 정리한 자료이고, 어플리케이션 아키텍처는 이러한 기업의 비즈니스 활용을 위한 주요 IT시스템의 구성 내용과 관계를 정리한 것이라 할 수 있으며, 데이터 아키텍처는 기업 전체의 데이터가 어떻게 구성되고 어떻게 관계/운영되는지를 정리한 자료가 될 것 같습니다. 그리고 기술 아키텍처는 이러한 시스템들을 구축/운영하기 위한 하드웨어/기술의 구성요소와 요소간의 관계를 정리한 자료라고 할 수 있겠습니다. 구체적인 자료로 보면 프로세스 멥, 기능 멥, 데이터 (개념/논리/물리)모델, 서버/Network 구성도가 될 것 같습니다.

 

보통 단위/단일 시스템의 아키텍처에도 동일하게 적용하여 시스템 구축 전에 아키텍처를 설계하고 설계에 따라 시스템을 구축하게 됩니다. (물론 국내에서는 주로 대형 프로젝트가 아니면 시간과 비용을 아끼고자 이러한 아키텍처 설계 부분이 무시되거나 축소되는 경향이 많습니다. - 체계적이지 못한 것이지요)

 

이렇게 해서 대략적인 아키텍처, 엔터프라이즈 아키텍처 그리고 그와 관련된 BA, AA, DA, TA 등에 대한 용어를 익히게 되었습니다.

기본부터 시작하다보니 중요한 것을 빼먹었는데요.....

시스템 아키텍처는 왜 필요할까요? 

좀더 쉽게 (공부했으니까..^^) 시스템을 잘 설명하기 위한 구성/구조/관계를 정리한 자료가 왜 필요할까요?

잠시, 생각해보시죠.

 

....

 

생각하고계시죠 ? ! ......

 

....

 

생각나셨나요? 네, 결국 시스템을 잘 구축하고 활용/관리하기 위해서 필요하며, 또다른 중요한 이유는 다른 관계자(사용자, 개발자 등)와 소통하기 위한 자료/Tool로서 필요합니다. 여기서 조금 더 들어가면, 시스템을 잘 구축하고 활용/관리 한다는 의미는 결국 시스템 구축시, 운영시, 변경시 아키텍처가 있으면 효율적으로(싸고/빠르고/품질좋은 시스템을) 구축할 수 있다는 것이고, 운영시 장애에 효과적으로 대처할 수 있으며, 시스템의 확대/변경 필요시에도 효율적으로 대응할 수 있음을 의미합니다.

 

 

많이 오기는 했는데요 ^^,  제가 앞으로 말씀드릴 내용은 바로 빅데이터 아키턱처에 대한 이야기 입니다.

아키텍처는 이제 이해 되셨죠...빅데이터는 그냥 간단하게 큰 데이터라고 생각하시면 됩니다.

초기에 빅데이터를 정의하고 특징을 말핼때 3V 라고해서 

데이터의 크기(Volume), 데이터의 속도(Velocity), 데이터의 다양성(variety)을 강조 했습니다.

요즘은 여기에 가치(Value)를 추가하여 4V라고 합니다.

다시말하면 3가지의 특징을 가지는 데이터를 빅데이터라고 말할 수 있습니다.

단일시스템에서 보관할 수 없을 정도 크기(Volume)의 데이터, 실시간으로 생성,저장,시각화 되야하는 데이터,

그리고, 포멧이 정해진 DBMS의 테이블이 아니라, 이미지, 택스트파일, 비디오/오디오 파일 등 비정형의 다양한 데이터까지포함하는 다양성(Variety)을 가지는 데이터를 말합니다.

이러한 빅데이터를 수집/저장/처리/분석하기위한 아키텍처는 어떻게 구성해야하는지를 앞으로 이야기해보도록 하겠습니다.

 

빅데이터가 확대 생산되면서에 대한 저장/관리/처리/활용이 더욱 중요하게 되었고 목적에 따라 새로운 아키텍처 패턴이 필요하게 되었으며, 최근에적용이 확대되면서 더욱 중요해지고 있기 때문이죠.

 

이후에는 비즈니스 요건과 이에 따른 아키텍처 패턴에 대해서 차근차근 알아보겠습니다.

 

감사합니다.

 
반응형

+ Recent posts