반응형
빅데이터와 SNS시대의 소셜 경험 전략  - 배성환, 김동환, 곽인호, 송용근 지음

제목과 같이 빅데이터로 인한 사회의 변화, 특히 SNS를 중심으로한 소셜 네트워킹에 의한 사회 변화와 콘텐츠 플랫폼, 마케팅, 비즈니스의 영향과 변화, 그리고 전략에 대한 이야기 이다. 이러한 인사이트를 통해 기업과 조직에서 새로운 고객 경험을 만들려는 제품/서비스 기획자, 마케팅 담당자, 산사업 전략 담당자 등 업무를 수행하는데 도움이 되기를 작가들은 바라고 있다.
그래서 작가들의 직업/경력들도 빅데이터에 대한 기술적인 전문가라기 보다는 경영, MBA, 기술기획, UI/UX디자인 등으로 다양하고 그래서 책을 같이 쓴것 같다.
장점이자 단점으로 많은 영역을 커버하기는하지만 그만큼 한분야에 전문적이거나 상세한 내용을 담지는 못한 것 같은 느낌이다.
그래도 키워드와 전략적 방향성 등은 계속 일관되고 향후에도 지속적으로 중요한 전략방향으로 생각되므로 도움이 될 것 같다.

(소셜을 보는 시각 중에 하나로 새로운 개인 미디어 또는 고객과의 소통 채널의 하나로 생각할 수 있다. )



1장 빅데이터 시대의 새로운 가능성, 소셜 경험


빅데이터는 2012년 10대 전략기술로 [가트너]가 선정했다. 
구글에서 검색하면 2012년 7월 기준으로 약 2억 4000만개의 웹문서를 찾을 수 있다.

다른 포스팅에서도 밝혔지만, 생각하기에 통신, IT기술의 발전에 따라 데이터에 처리가 더욱 빠르고 저렴한 비용에서 소통 가능하게 되었으며 이를 이용해 생긴 채널이 바로 SNS로 생각된다. 특히 무선 네트워크의 발달과 스마트폰의 유행은 소셜 시대를 만들어내는 기반이 되었다.

 
소셜 미디어는 어떻게 데이터를 폭증시키는가에서 아래와 같이 들고 있다.
- 매일 500년 분략의 유튜브 동영상이 페이스북을 통해 시청되고 있다.
- 매분 700개 이상의 유튜브 동영상이 트위터에서 공유된다.
- 300억 개 이상의 누적 트윗이 존재한다.
- 매일 2억 5천만 건 이상의 트윗이 발생한다.
- 페이스북에는 매일 2억장 이상의 사진이 업로드된다.
(출처: 페이스북/유튜브 공식 통계, 테크크런치(http://techcrunch.com) 2011년 10월 기준)



2장 소셜이 만드는 새로운 데이터 세상

빅데이터 시대의 소셜 미디어가 중요한 이유는 바로 개인에 맞는 서비스를 개인에 맞는 방법으로 전달할 수 있기 때문이다.
이러한 사례로 책에서는 2010년 개봉된 페이스북을 다룬 영화 '소셜네트워크'에 대한 국내/해외 포스터의 차이를 보고 소셜미디어를 바라보는 시각이 다름을 예로 들고 있다.
한국에서는 5억명의 사용자가 있다는 성공적인 서비스를 다룬 영화라는 것이 촛점을 맞춘 반면 미국에서는 친구와의 대립 없이 샓게 만들어지기 힘들었던 관계에 주목한다.

이러한 소셜 미디어는 2010년에 일어난 튀니지의 재스민 혁명을 예로 들면서 소셜 미디어의 힘을 설명하고 있다
이러한 소셜 미디어의 데이터는 계속 폭발적으로 증가하고 있으며, 이처럼 넘치는 데이터 안에서 원하는 정보를 찾는 것이 중요해졌음을 설명한다.
손님에게 제공하기 위한 셀러드 준비과정을 데이터 준비과정과 비교하며 설명한다.
Raw Data (들의 채소 등 제료) -> Data Mining(좋은 재료 선택/발굴) -> Filtering/Preprocessing(채소 손질) -> Analysis(준비한 그릇에 잘 섞어줌) -> Post processing/Visualiztion(드레싱 뿌리기) -> Presentation/Service(접시에 덜어서 서빙) -> 맛을 보면서 행위에 영햐을 줌

마이닝의 두가지 관점 : 긁어 모으는(Crawling)방법과 기록하는(Logging)방법- 즉, 구글과 아마존

기업이 준비해야 할 변화 : 큐레이션

빅데이터 분석에 두드러진 효과를 나타내는 영역은 마케팅
그밖의 활용분야/사례로 구글의 독감 트렌드, 공공기관인 아리조나주의 길버트 앱, 센프란 시스코의 주차 안내 등


3장 소셜 경험 in 사회

선거 당선 예측 : 2011년 서울시장 보궐선거 (박원순, 나경원 후보의 네트워크)
2008년 미국 대선 오바마 후보 케이스


4장 소셜 경험 in 네트워크

네트워크의 힘 : 시계방향이 모두 오른쪽으로 도는 이유
3초 백과 대치동은 어떻게 만들어 졌나? - 왜 3초 백이란 별명처럼 많이 사용하게 되었나? 왜 대치동하면 비싼 동내가 되었나?
이유는 3초 백이니까, 그리고 대치동이니까...ㅋㅋㅋ
강한 네트워크는 강한대로 약한 네트워크는 약한 대로 의미가 있다.
1970년대 사회학자 마크 그라노베터의 주장 : 취직, 결혼 등 사회적인 중요한 전환점에는 깊은 관계보다 약한 연결의 영향이 더 크다는 주장
이유는 강한 연결의 네트워크는 동질성을 갖기 때문에 동일한 관점/행동을 추구할 가능성이 높다. 따라서 챙겨주기 힘들다. (나도 결혼 안했는데.... 나도 취직 안했는데...)
스텐리 밀그렘의 '좁은 세계' 모델에서 봐도 약한 연결은 중요함. 서로 다른 두개이상의 강한 네트워크를 연결해주는 약한 연결이 중요함.

영국의 인류학자 로빈 던바(던바 숫자) : 인간 뇌의 한계로 인해 약 120~200명 정도에서 일반적인 관계를 맺을 수 있다

1960년대 컴퓨터는 인간을 달로 보내는 데 사용되었고, 21세기의 사람들은 새를 날려보내 되지를 잡는 데만 열중하고 있다.

2012년 2월 소셜 미디어 데이터 플렛폼을 표방하는 데이터시프트사가 트위터와 계약해서 약 2년간 트위터의 모든공개 기록들을 판매한다고 발표

소비자가 지갑을 여는 행위는 최고의 기술이나 최저 가격에 의해서만 결정되진 않는다
새로운 경험이 소비를 결정짓게 한다.


5장 소셜 경험 in 콘텐츠 플랫폼

소셜을 통한 경험의 확산 : 
- 2011년 베트맨 다크나이트, 페이스북을 통해 제공, 
- 케이팝 기획사(YG, JYP, SM)의 전세계 뷰 22억건
- 2011년 10월 유튜브 공개된 소녀시대 '더 보이즈' : 4개월 만에 3천만건
(별도조사)- 2012년 7월 올린 강남스타일 유튜브 조회건수 27억(2017년 2월기준)

TEDx
전 세계 어느 곳이라도 도시나 지명, 혹은 학교의 이름을 붙여서 그 지역에서 연사를 발굴하고 컨퍼런스를 열 수 있는 TED의 라이선스 프로그램이다.   강연 포맷과  TEDx라는 행사이름, 그리고 TED와 동일한 비영리적 행사 운영과 강연 콘텐츠 동여상 무료 공유 등의 가이드라인. TEDx라는 이름으로 수많은 콘텐츠를 확보하게 됨


6장 소셜 경험 in 마케팅

어떻게 이 제품을 추천하게 됐을까? : 최대 매칭(Max Matching) 한사람이 4권의 책을 샀을때 비슷하게 책을 구입한 다른 사람들의 기록과 비교채서 가장 많이 중첩되는 5권중 아직 사지 않은 다섯 번째 책을 추천하는 방식

왜 내게 비싼 가격을 제시했을까? 1990년대 말, 아마존의 메일발송 카탈로그(카탈로그와 온라인 제시 가격이 다름, 카탈로그가 더 비싸게 표시됨)

내 친구의 소식이광고가 되기까지 : 페이스북에서 친구가 좋아요를 누르고 스폰서 페이지에서 행위를 할경우 해당내용이 친구가 좋아요를 눌렀습니다.와 제품을 이용하는 로그를 남긴 것을 본다면 자기도 따라서 하고 싶은 욕구가 생긴다는 것

비즈니스에 직결되는 분석
주목해야할 두 가지 키워드 : 검색과 공유
- 1898년E.S 루이스 : AIDA - Attention Interest Desire Action
- 아키야마 류헤이: AISAS -   Search Action Share

휴리스틱 평가 : 사용성의 대가인 제이콥 닐슨이 정의한 것으로 전문가가 웹사이트의 ㅏ숑ㅇ성을 판단할 수 있는 기준이 되는 10가지 조항들을 정리한 것
빅데이터 시대의 소비자들은 구매 의사 결정에 직간접적으로 영향을 주는 다양한 요소들에 대해 네트워크 환경 속에 여러 가지 모습으로 흔적을 남기고 있다. 다양한 분석을 통해 어떻게 활용할지, 어떻게 고객의 구매로 자연스럽게 연결할 수 있을지가 관심의 대상이 되고 있다. 고객들은 자신만의 판단 기준을 갖기 시작했다. 개인적 경험, 주변 평판, 객관적인 진정성 등.

무작위 친절
-진실해야한다.
-개인적이어야 하나 지나치면 안된다.
-온화하게, 하지만 무신경해서는 안된다.
-공유할 수 있게 하라 - 공유해야할 이유를 줘라
-관대하라 - 소수의 사람에게 진정으로 관대하라
-의마와 목적이 있어야한다 - 고객이 활동에 참여하도록 장려하라
-방해하거나, 밀어붙이거나, 판매하려하지 말라
-무작위적 친절 행동을 남발하지 말라.

오늘날 소비자는 현명한 소비를 원한다. - 공정 무역 : 막스 하벨라르(책임소비에 앞장서온 단체), 알린 버트(백그라운드 스토리즈), 유레카 목장


7장 소셜 경험 in 비즈니스

파리의 자전거에서 답을 찾다 ( 벨리브 시스템-서울 따릉이 같은 공공 자전거 대여 서비스)

필립 코들러, 기업의 사회적 참여에 대한 6가지 유형을 제시
1. 특정 사회 문제에 대한 대중의 관심과 기금 모금/자원봉사자 모집 등을 장려하기 위해 기업이 기금, 기타 기업 자산을 제공하는 공익 캠페인(Cause promotion)
2. 공익연계 마케팅(Cause-related marketing) : 회사 매출의 일정 비율을 기부
3. 사회 마케팅(Corporate social marketing) : 개개인의 행동 변화에 초점을 둔 캠페인을 개발 실천하고 지원하는 활동을 의미
4. 사회 공헌(Corporate philanthropy) : 특정 사회문제나 공익사업에 현금/물품, 서비스, 장비, 기술 등을 직접 기부하는 방식
5. 지역사회 자원봉사 활동(Community volunteering)
6. 사회 책임 경영 프랙티스(Socially responsible business practice) : 경영과 투자활동을 통해 환경 보호와 사회 복지 개선에 기여하는 활동

2011년 마이클 포터 는 '하버드비즈니스리뷰'를 통해 '공유 가치의 창출(CSV: Creating Shard Value)라는 개념을 제안


8장 큐레이션 시대의 소셜 경험 전략


행복 확산 캠페인이 증명한 바람직한 소셜 경험 전략

KLM 캠페인 사례: 포스퀘어와 트위터를 활용해 당일 KLM과 관련되거나 관시믕ㄹ 보인 승객을 찾고, 그들이 어떤 성향을 지녔는지 파악해서 그들에게 선물을 전달하는 과정을 포함, 과정을 유튜브 동영상으로 제작 배포.

예상치 못한 친절하에 감동하고 이를 소셜 미디어를 통해 기분 좋은 경험을 다시 공유하는 과정을 통해 고객경험이 홍보됨

40명에게 선물, 1억명이 넘는 트위터 사용자에게 확산, 2011년 KLM은 소셜 브랜드 순위 22위


트위터 프로필 사진과 댓글을 보고 스포츠를 좋아하는 사람인지 알아내고 거기에 맞게 선물 준비(손목시계가 없음을 확인하고 나이키 손목 시계 선물)


비즈니스의 본질은 누가 얼마나 더 고객을 만족시키고 이를 통해 이윤을 창출할 수 있는가에 있다. 소셜/빅데이터는 고객을 더욱 깊이 파악해 좀 더 만족시키기 위한 도구로서 중요한 역할을 할 수 있다는 점에 우리는 주목해야 한다.





반응형
반응형

[ EDW와 빅데이터 아키텍처 ]

 

앞선 포스팅에서 적은 것 처럼 EDW는 Enterprise Data Warehouse 의 약자입니다.

 

그럼, 요즘 핫한 빅데이터 아케텍처와 EDW와는 어떤 관계가 있을까요?

 

자~ 같이 생각해 보시죠..~ ^^

 

....

 

EDW 구축 방법중 하나, 빅데이터

 

결론부터 말씀 드리면 EDW를 구축하는 방법중의하나가 빅데이터 아키텍처라고 할 수 있습니다.

 

즉, 분석계에서 빅데이터를 구축하려면 EDW라는 개념을 이용할 수 밖에 없다는 말입니다.

 

 

EDW를 구축하는 방법에는

과거 (지금도 대부분의 기업에서) 많이 사용하는 DBMS방법과

빅데이터 기술을 적용한 방법이 있습니다.

DBMS로 구축한 EDW는 훌륭했었었습니다.

 

예전에 데이터가 작을(?) 때에는 좋은 성능의 (UNIX) 서버에 DBMS라는 미들웨어를 놓고 데이터 관리를 하면 대부분이 해결되었습니다.

즉, 전사 데이터의 수집, 저장, 처리, 분석, 활용에 문제가 없었습니다.

개별 시스템 뿐만아니라 기업에서 주요 데이터를 모두 모아 놓아도

 이러한 DBMS 시스템 구성으로 구현이 가능했습니다.

성능도 좋았고 관리하기 편했으며 문제가 생기면 솔루션 제공 벤더에서 해결해주었습니다.

 

그런데 문제가 생기기 시작했습니다.

빅데이터 시대가 되면서

(즉, 스마트폰이나오고 페이스북, 트위터 등 엄청난 데이터가 쏱아져나오면서)

이러한 시스템 구성으로는 문제가 생기게 되었지요.

DBMS로 구성하면 엄청난 비용이 들 뿐만 아니라

실제 구축을 해도 성능이 만족스럽지 못하게 되었습니다.

즉, 전사의 운영시스템에 흩어져 있는데이터를 모두 모아서

적재하고 필요한 데이터로 가공하고 만들어 내는데에 하루로도 부족하게 된 것이지요.

그러니 실적리포트, 대시보드 등의 정보가 2~3일 늦게 나오게되는.....

영~ 서비스를 할 수 없게 되는 것이지요.

그저께 데이터를 처리도 못했는데 또 어제 데이터가 밀고 들어오는 상황인 것이지요

 

그래서 빅데이터라는 기술을 이용하여 EDW를 구성하게 되었습니다.

빅데이터 기술의 EDW를 구성하게 되면 앞서말한 문제점들을 해결 할 수 있습니다.

비용이 싸고

(UNIX보다 훨씬 저렴한 x86 서버에, 오픈소스 솔루션사용으로 솔루션 비용은 공짜)

분산 병렬 처리로 인해 처리할 수 있는 데이터의 량이 거의 무한대에 가깝게 되었습니다.

즉, 대량의 데이터를 싸고 효율적으로 관리할 수 있게 된거지요..

우와~ 여러모로 좋은 방법인것 같지요???!!!

 

 

그러나 모든 것이 그렇틋 장점이 있으면 단점도 있습니다.

무조건 빅데이터 기술이 좋은 것은 아닙니다.

하드웨어, 솔루션의 비용이 대폭 줄어들었지만 대신에 관리의 불편함이 발생하게 됩니다.

장애 발생시 과거에는 DBMS솔루션 벤더에 문의하고 확인해서 버그 픽스하고 패치하면 해결이 됬는데...

(그리고 이런 것을 알아서 벤더에서 해 주었는데...)

빅데이터 기술(오픈소스)를 쓰게 되면서 이런 것들을 직접해야만 하는 수고가 생겼습니다.

그리고 이렇게 직접 하려면 기술적으로 매우 자세한 내용까지 알고 있는 전문가가 회사내에 필요하게 되었지요.

장애나고 문제가 생기면 이제 벤더 탓을 할 수 없게 되었습니다. ㅎ

 

그리고 빅데이터 기술들은 기존의 마트나 분석 툴에 사용되던 DBMS, 상용 툴과의 인테그레이션이 쉽게 되어있지 않아서 어려움이 생기게 되었지요.

 

이러한 장단점을 적적히 섞어서 빅데이터기술과 DBMS기술을 섞어서 구성하는 하이브리드 아키텍처도 많이 사용되고 있습니다.

즉, Raw Data의 저장, 처리는 빅데이터 아키텍처에서 해결하고

기존의 분석 툴이나 서비스에서 활용하기 위해서 DBMS를 이용하는 방법입니다.

 

최근에는 빅데이터 기술의 발전 속도가 빨라지면서 DBMS의 기능을 지원하는 것이 확장되고 있습니다.

그래서 나중에는 빅데이터 기술 만으로도 EDW를 구축할 수 있을 것 같은데...

앞서 말한 여러가지 이유로 아직은 시기 상조인 것 같습니다.

그러나 빅데이터 관련 주요 업체중 하나인 클라우데라는 오라클(ORACLE)과 연계 강화를 통해 기능 강화를 진행하고 있고

호튼웍스도 하이브(HiVE)에 기능을 강화하면서

빠르게 진화/발전하고 있습니다.

 

결국에는 빅데이터 기술이 EDW를 지배하는 시대가 곧 올것 같습니다

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

빅데이터 관점에서 아키텍처(Architecture)란 무엇일까요?

그리고 아키택트(Architect)는 무엇을 해야할까요?

 

 

이를 위해서는 먼저 용어에 대한 정확한 이해가 필요하겠지요?

     // (그전에 잠깐 !!! 왜 빅데이터가 중요한지 알고계시죠? ^^

     //   바로 지난 포스팅에서도 언급되었지만 4차 산업혁명의 핵심 기반이 빅데이터이기 때문입니다.)

 

그래서 먼저 구글에서 조사해 보겠습니다.

구글에서 아키텍처 라고 검색하면 아래와 같이 나옵니다.

 

 

아ː키텍처, architecture
  1. 컴퓨터를 기능면에서 본 구성 방식. 기억 장치의 번지 방식, 입출력 장치의 구성 방식 등을 가리킴. 일반적으로 같은 아키텍처의 컴퓨터에는 소프트웨어의 호환성(互換性)이 있음.

 

 

음...무슨 무슨 방식 이라는 용어가 눈에 들어오네요.

 

우리가 원하는 것은 빅데이터, 그리고 IT시스템과 관련된 아키텍처의 정의를 원하고 있으므로

그 아래 위키 백과에 있는 시스템 아키텍처에 대한 정의가 더 적합 할 것 같습니다.

 

위키 백과에서는 시스템 아키텍처(System Architecture)를 '시스템이 어떻게 작동하는지를 설명하는 프레임워크' 라고 정의하고 있습니다.

그리고 시스템 목적을 달성하기 위한 각 컴포넌트가 무엇이며, 어떻게 상효작용하는지 등을 설명하는 것이라고합니다.

여기서 보니 프레임워크, 컴포넌트, 상호작용 이라는 용어가 눈에 들어옵니다. 그리고 결국 시스템 아키텍처란 시스템을 설명하기 위한 무엇이네요.

위키에서 프레임워크를 계속해서 찾아보니 '복잡한 문제를 해결하거나 서술하는 데 사용되는 '기본 개념 구조'라고 되어있습니다.

컴포넌트는 다른 말로 구성요소 이니, 결국 아키텍처란 '시스템을 잘 설명하기위해 구성요소와 구조, 관계 등을 설명하는 자료' 라고 할 수 있겠습니다.

이해가 되시는지요?

그래서 구글에서 아키텍처라고 검색하고 이미지를 누르면 아래와 같이 대부분이 순서도와 같은 블럭과 선으로 그려진 이미지들이 보이네요.

 

 

 

그래서 아키텍처를 Box-Line Diagram 이라고 부르기도 한답니다.^^

 

사실 아키텍처는 지금으로부터 약 10년전에 유행했었습니다.

바로 엔터프라이즈 아키텍처 라는 이름으로 유행했었죠.

우리가 배운 내용으로 무슨 내용일지 유추해 볼까요?

엔터프라이즈는 기업이고 아키텍처는 위에서 말한 것 처럼 설명을 하기 위한 구성요소, 구조 이니...

풀어서 설명하면 기업을 설명하기위해 정리된 구성요소와 구조, 관계를 말합니다. 이런 것은 대부분 박스와 선으로 그려진 이미지로 정리될 수 있고요.

 

좀더 깔끔하게 정리된 위키 백과의 내용을 보면 아래와 같습니다.

엔터프라이즈 아키텍처(Enterprise Architecture; EA)는 조직의 프로세스 및 정보 시스템 및 부서의 구조와 기능을 포괄적이고 정확한 방법으로 기술하는 방법이고, 이것을 통해 조직이 전략적 목표에 따라 행동하도록 방향을 제시하는 것이다. 정보기술(IT)와 관련이 깊지만, 사업 최적화도 관련이 깊고, 사업구조, 성과관리, 조직구조 아키텍처 등으로 불린다.

 

자세히 보니 기업에서 수립되는 전략을 슬로건이나 경영 방침/목표로 삼고 추진하는 것도 좋지만 엔터프라이즈 아키텍처로 만들어서 이미지로 구체화 하면 더욱 이해하기 쉬울 것 같다는 생각이 들었습니다.

 

엔터프라이즈 아키텍처(EA)는 다시 서브 아키텍처로 구성되는데 주로 4가지로 구성됩니다. 

즉, 비즈니스 아키텍처(BA: Business Architecture), 어플리케이션 아키텍처(AA: Application Architecture), 데이터 아키텍처(DA: Data Architecture), 기술 아키텍처(TA: Technical Architecture) 로 구성됩니다. (EA 이야기는 시간이되면 따로 하겠습니다. 이분야도 엄청나게 넓은 분야여서 설명에 많은 시간이 필요할 것 같습니다. 아! 그리고 4가지 뿐만 아니라 정책, 원칙, 표준, 보안 등 다른 요소를 추가하여 EA를 구성하는 기업도 있습니다. 이는 기업의 업종과 특성에 따라 추가될 수 있습니다. 이런 요소가 포함된 것을 엔터프라이즈 거버넌스라고도 합니다.)

그래도 우리가 배운 지식을 이용해서 짧게 설명하고 넘어가자면 비즈니스 아키텍처는 기업의 비즈니스를 잘 설명하기 위해 구성요소를 정의하고 구성요소간의 관계를 정리한 자료이고, 어플리케이션 아키텍처는 이러한 기업의 비즈니스 활용을 위한 주요 IT시스템의 구성 내용과 관계를 정리한 것이라 할 수 있으며, 데이터 아키텍처는 기업 전체의 데이터가 어떻게 구성되고 어떻게 관계/운영되는지를 정리한 자료가 될 것 같습니다. 그리고 기술 아키텍처는 이러한 시스템들을 구축/운영하기 위한 하드웨어/기술의 구성요소와 요소간의 관계를 정리한 자료라고 할 수 있겠습니다. 구체적인 자료로 보면 프로세스 멥, 기능 멥, 데이터 (개념/논리/물리)모델, 서버/Network 구성도가 될 것 같습니다.

 

보통 단위/단일 시스템의 아키텍처에도 동일하게 적용하여 시스템 구축 전에 아키텍처를 설계하고 설계에 따라 시스템을 구축하게 됩니다. (물론 국내에서는 주로 대형 프로젝트가 아니면 시간과 비용을 아끼고자 이러한 아키텍처 설계 부분이 무시되거나 축소되는 경향이 많습니다. - 체계적이지 못한 것이지요)

 

이렇게 해서 대략적인 아키텍처, 엔터프라이즈 아키텍처 그리고 그와 관련된 BA, AA, DA, TA 등에 대한 용어를 익히게 되었습니다.

기본부터 시작하다보니 중요한 것을 빼먹었는데요.....

시스템 아키텍처는 왜 필요할까요? 

좀더 쉽게 (공부했으니까..^^) 시스템을 잘 설명하기 위한 구성/구조/관계를 정리한 자료가 왜 필요할까요?

잠시, 생각해보시죠.

 

....

 

생각하고계시죠 ? ! ......

 

....

 

생각나셨나요? 네, 결국 시스템을 잘 구축하고 활용/관리하기 위해서 필요하며, 또다른 중요한 이유는 다른 관계자(사용자, 개발자 등)와 소통하기 위한 자료/Tool로서 필요합니다. 여기서 조금 더 들어가면, 시스템을 잘 구축하고 활용/관리 한다는 의미는 결국 시스템 구축시, 운영시, 변경시 아키텍처가 있으면 효율적으로(싸고/빠르고/품질좋은 시스템을) 구축할 수 있다는 것이고, 운영시 장애에 효과적으로 대처할 수 있으며, 시스템의 확대/변경 필요시에도 효율적으로 대응할 수 있음을 의미합니다.

 

 

많이 오기는 했는데요 ^^,  제가 앞으로 말씀드릴 내용은 바로 빅데이터 아키턱처에 대한 이야기 입니다.

아키텍처는 이제 이해 되셨죠...빅데이터는 그냥 간단하게 큰 데이터라고 생각하시면 됩니다.

초기에 빅데이터를 정의하고 특징을 말핼때 3V 라고해서 

데이터의 크기(Volume), 데이터의 속도(Velocity), 데이터의 다양성(variety)을 강조 했습니다.

요즘은 여기에 가치(Value)를 추가하여 4V라고 합니다.

다시말하면 3가지의 특징을 가지는 데이터를 빅데이터라고 말할 수 있습니다.

단일시스템에서 보관할 수 없을 정도 크기(Volume)의 데이터, 실시간으로 생성,저장,시각화 되야하는 데이터,

그리고, 포멧이 정해진 DBMS의 테이블이 아니라, 이미지, 택스트파일, 비디오/오디오 파일 등 비정형의 다양한 데이터까지포함하는 다양성(Variety)을 가지는 데이터를 말합니다.

이러한 빅데이터를 수집/저장/처리/분석하기위한 아키텍처는 어떻게 구성해야하는지를 앞으로 이야기해보도록 하겠습니다.

 

빅데이터가 확대 생산되면서에 대한 저장/관리/처리/활용이 더욱 중요하게 되었고 목적에 따라 새로운 아키텍처 패턴이 필요하게 되었으며, 최근에적용이 확대되면서 더욱 중요해지고 있기 때문이죠.

 

이후에는 비즈니스 요건과 이에 따른 아키텍처 패턴에 대해서 차근차근 알아보겠습니다.

 

감사합니다.

 
반응형
반응형

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM)


데이터 분석 방법론

막상 데이터 분석을 하려고 하면 막막할 때가 많습니다...이럴때 미리 잘 정리된 절차와 방법을 따라서 하나씩 진행한다면 쉽게 접근할 수 있겠지요! 바로~~~, 이러한 방법을 정리해 봅니다. ^^

먼저 분석 방법론이란 무엇일까요? 방법론은 쉽게 말하면 앞에서도 잠깐 얘기한 절차와 방법입니다. 즉 어떤 일을 하기위한 체계적인 절차와 그 처리 방법을 정리한 것이라고 하겠습니다. 그럼 데이터 분석 방법에는 어떤 것들이 있을까요? 분석 방법에는 크게 3가지로, 통계적 방법론, 데이터 마이닝 방법론, 빅데이터 방법론으로 구분할 수 있을 것 같습니다. 통계적 방법론은 전통적인 통계 분석을 위한 방법론을 말합니다. 주로 학술 연구를 중심으로 사용되지요. 그리고 통계적 기법/이론을 발굴/적용하는데 중심이 되어있기 때문에 비즈니스 목적과 요구사항을 파악하고 처리하는데 미흡합니다. 반면 데이터 마이닝 방법론은 비즈니스 활용을 목적으로 만들어진 데이터 분석 방법론입니다. 즉, 분석을 통한 비즈니스 활용을 위한 절차와 방법이 정리되어 있습니다. 때문에 산업 현장에서 많이 쓰입니다. 빅데이터 방법론은 빅데이터의 적용 확대에 따라 비정형 데이터의 활용, 분산/분석 기술의 변화와 이에 따른 필요한 분석방법의 (귀납법중심으로의) 변화에 따른 새로운 분석 방법론입니다.

오늘은 그중에서 데이터 마이닝 방법론에 대해서 이야기해 보겠습니다.
제정법(제가 정리한 방법)에 따르면 데이터 분석을 위해 필요한 단계/절차, 활동내용, 산출물을 정리한 것으로 방법론에 따라 분석을 쭉~ 진행해 나가면 자연 스럽게 분석이 이루어지게 되는 것을 말합니다. 따라서 잘만 따라서 진행해 나간다면 (1)초보자도 쉽게 따라할 수 있으며, (2)분석지식이 부족한 사람도 분석 과정을 이해하기 쉽고, (3)중간에 깜빡하고 지나가는 작업을 방지할 수 있어서 일정한 수준 이상의 데이터 분석 품질을 유지 할 수 있습니다. 물론, 각 방법론의 의미와 방법을 잘 이해하고 잘 따라가야 겠지요. ^^

KDD, CRISP-DM, SEMMA

 

KDD

Knowledge Discovery in Database의 약자이며 기술과 데이터베이스를 중심으로한 Insight 발굴을 위한 절차와 단계를 정리한 것입니다. 때문에 DBMS를 운영하는 조직에서는 쉽고 유용하게 사용될 수 있습니다. (이를 위해 BI(Business Intelligence)라는 용어로 불리어 지기도 합니다. 서로 다른 점을 보면 BI는 개념적인 측면의 용어이고 KDD는 방법론의 이름이라는 것이 다릅니다.) 때문에 KDD는 데이터베이스에서의 Data를 통해 Insight를 얻기 위한 표준화된 처리 절차와 방법에 대한 정의라고 생각하시면 됩니다.

크게 5단계의 과정, Selection: 추출(Target Data 생성), Pre-processing: 전처리(Preprocessed Data), Transformation: 변환(Transformed Data), Data Mining(Patterns), Interpretation Evaluation: 해석/평가(Knowledge)을 거치게 됩니다.

 

[Google image 검색결과중]



 

SEMMA

Sampling Exploration Modification Modeling Assessment의 약자입니다. Statistics 관점의 방법론으로 분석 솔루션 업체인 SAS사 주도로 만들어진 방법론 입니다. 총 5단계로 구성되며, 샘플링, 데이터 탐색/전처리 등 통계 중심의 방법론 입니다. 이름중에 Sampling이 들어있는 것만봐도 아시겠죠! 그래서, 이것도 역시 비즈니스 상에서 필요한 목적과 요구사항 도출/정리/처리하는데 적합하지 않은 방법 입니다.

[Google image 검색결과중]


 

 

CRISP-DM

CRoss-Industry Standard Process for Data Mining의 약자 입니다.1996년 유럽연합EU의 프로젝트로 시작했습니다. CRISP-DM은 SPSS, Teradata, NCR 등 많은 업체들이 참여했습니다. 현재는 공식적인 활동은 중단한 상태이고 IBM의 SPSS Modeler 가이드로 업계애서 많이 사용중 입니다. 단계는 총 6단계로, 비즈니스 이해, 데이터 이해, 데이터 준비, 모델링, 모델 평가, 고객전달 입니다. 비즈니스 현장에서 많이 쓰이는 방법론이니까 자세히 알아보겠습니다.

각 단계 별로 아래와 같은 목적 및 주요 Task가 있습니다.

  1. 비즈니스 이해
    • ​Determine Business Objects
    • Assess Situation
    • Determine Data Mining Goals
    • Produce Project Plan​
  2. ​데이터 이해
    • ​Collect Initial Data
    • Describe Data
    • Explore Data
    • Verify Data Quality​
  3. 데이터 준비
    • ​Select Data
    • Clean Data
    • Construct Data
    • Integrated Data
    • Format Data
  4. 모델링
    • ​Select Modeling Technique
    • Generate Test Design
    • Build Model
    • Assess Model​
  5. 모델 평가
    • ​Evaluate Results
    • Review Process
    • Determine Next Steps​
  6. 고객전달 ​
    • ​Plan Deployment
    • Plan Monitoring and Maintenance
    • Produce Final Report
    • Review Project

 

[Google image 검색결과중]


이렇게 방법론을 보고 따라서 하려해도 실제로 업무에 적용하는 것은 쉬운 일이 아닙니다. 논리적인 연계와 흐름이 쉽지 않아서 이해하고 목적에 맞게 분석을 수행해 내기가 쉽지 않기 때문이죠.
다음 포스팅에서는 구체적인 사례를 들어가면서 얘기해 보도록 하겠습니다.

https://bigdatamaster.tistory.com/66

 

데이터 분석 방법론 (2) - 예시포함 (CRISP-DM)

데이터 분석 방법론 (2) - 예시포함 (CRISP-DM) 데이터 분석 방법론에 대한 개요와 자료는 많이 쉽게 찾을 수 있는데 실질적인 사례나 예시에 해당하는 내용은 접하기 어려운 것이 현실인 것 같습니

bigdatamaster.tistory.com



감사합니다.

그리고 이러한 기술 활용을 통한 고객 프로파일링 내용과
택스트 분석을 통한 고객분석/고객 성향분석에 대한 정보는 아래를 확인해보세요.

https://bigdatamaster.tistory.com/m/6

 

1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석

 1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석 안녕하세요, 주제는 고객 프로파일링 입니다. 특히, 고객 Communication 측면에서의 프로파일일에 대해서 이야기해 보겠습니다. 고객은 두

bigdatamaster.tistory.com



https://bigdatamaster.tistory.com/m/96

 

[연재] 고객분석ㅡMBTI

한 사람이 붐비는 인파를 뚫고 할인 매대에서 티셔츠를 집어들다. "예쁘네 이거사야지!" 몆번 훌터보더니 바로 계산대로 가서 계산을 했다. 그런데 저쪽 구석에서 한참동안을 서서 옷들을 뒤척

bigdatamaster.tistory.com

 

반응형

+ Recent posts