반응형

코로나19로 인해 많은 사람들이 주식과 비트코인 등의 유가증권 또는 전자자산에 투자하는 열풍, 아니 광풍이 불고 있다.
여러가지 이유가 있겠지만 첫째로 국민들이 과거를 학습했기 때문이 아닐까 싶다. 즉, 과거 98년 IMF 부터 금융위기, 북한의 위협 등 국가 금융위기가 있을 때마다 기업의 주가가 폭락했다가 나중에 반등하는 사례를 보았기 때문일 것이다. 둘째는 투자 관련 정보를 많이 접할 수 있기 때문이 아닌가 싶다. 예전에는 증권회사의 지점에 직접 찾아가서 정보를 물어보고 투자했지만 요즘에는 온라인으로 많은 정보를 얻을 수 있고(물론 가짜 정보도) 채팅 앱이나 블로그, 유튜브를 잠깐만 찾아봐도 다 볼 수 없을 정도의 많은 정보가 쏟아져 나온다. 세번째 이유는 실제로 작은 개인의 성공사례가 전보다 많이 생겼고 그 소식이 동일 집단에 매우 빠르게 전파되기 때문에 말 그대로 투자 붐이 일어난 것 같다.
자본주의 사회에서 돈을 벌기위한 방법 중 하나로 유가증권(특히, 주식)은 말할 필요 없이 매우 중요한 부분을 차지 한다. 돈버는 방법이야 여러가지가 있겠다. 다른 말로 소득이라고 할 수 있는데, 통계청에 따르면 '가구소득'의 정의는 아래와 같다.
'한 가구나 그 가구의 개별 구성원이 1년간 또는 정기적으로 벌어들이는 현금 또는 현물 등의 모든 수입을 의미합니다.'
그리고 가구소득에서 총소득은 근로소득, 사업소득, 재산소득, 경상이전소득, 비경상소득의 합을 말한다.
즉, 돈 버는 방법이 근로, 사업, 재산, 기타로 분류 될 수 있을 것이다. 여기서 재산소득 중에 하나가 바로 주식 투자에 대한 배당 소득이다.
물론 많은 주식 투자자가 배당 소득 보다는 시세 차익을 목표로 투자한다. 짧은 기간에 많은 돈을 벌 수 있기 때문이다.(짧은 기간에 큰 손해를 볼 수도 있다)
이러한 주식 투자를 위해서 제일 중요한 것이 무엇일까?
정보! 바로 데이터라고 할 수 있겠다.
사실 정보는 떠도는 소문이나 풍문을 정보로 이용해서 투자를 시작하는 사람이 많이 있지만 많은 사람들이 실패하는 이유이기도 하다. 투자 가치가 그렇게 높은 정보가 공짜로, 그런 고급 정보가, 그렇게 쉽게, 당신에게 까지 알게 되었다는 게 이상하지 않나? 그리고 더 중요한 것은 이렇게 투자해서 수익을 본다해도 같은 방법으로 실패할 확률이 매우 높다. 성공한 투자는 기업에 대해서 많이 알아야 한다. 그래서 훌륭한 투자자들은 끈임없이 학습 한다. 기술분석이니, 가치투자이니, PER, EPS 등등등 끝임없이 학습하고 투자 회사에 대한 주가 뿐만 아니라 투자한/투자하려는 업종 및 기업의 사업 정보를 분석해야 한다. 이렇게 학습하고 분석해서 본인만의 투자 방법을 만들고 실행하며 발전해야 진정으로 성공할 수 있을 것이다.
자신만의 투자 방법을 만들기 위한 방법중 기본적으로 과거의 주가를 분석해서 패턴이나 특징을 찾는 것도 하나의 벙법일 수 있다. (서두에 말한 광풍의 이유중 하나인 국민들이 학습했기 때문이라는 것도 결국 과거의 패턴을 알고 있기 때문이다.) 이처럼 데이터 분석을 위해서 주가 데이터의 수집, 정재, 패턴/특징 찾기, 시뮬레이션, 선정/피드백, 파이프라인 자동화 등의 단계를 거칠 수 있겠다. 오늘은 제일 먼저 데이터 수집에 대해서 알아보자.
주가 데이터를 수집하는 방법에는 API, Web Crawling(웹 크롤링), 각 기업 Web Page 등이 있겠다. 데이터를 가지고 여러 방법으로 새로운 데이터를 만들거나 다른 데이터와 결합하는 등 다양한 처리와 계산이 필요하기 때문에(, 그리고 특히 자동 매수/매도가 필요하다면 결국) 증권사에서 제공하는 API를 통한 데이터 수집이 효과적이다. 그러나 쉽고 빠르게 간단한 데이터를 수집하고 분석하기에는 Web Crawling이 적합하다.

다음부터는 주식/주가 데이터를 수집하는 방법부터 하나씩 풀어보자.

반응형
반응형

이번에는 고객 구매 행동 모델과 성격유형에 대해서 알아보자.

고객 구매 행동 모델

고객 구매 행동 모델은 간단히 말하면 기업의 제품이나 서비스에 대하여 고객이 행동하는 행동패턴의 유형을 분류해 놓은 것이다. 

가장 최초의 모델은 1898년 E. S. Lewis 가 고안한 AIDA 방법으로 고객의 구매 행동 패턴을 Awareness, Interest, Desire, Action 순서로 정의한 것이다. 즉, 고객이 특정 제품/서비스가 있는지를 인지(Awareness)하는 단계(쉽게 말하면 광고/홍보를 접하는 단계)로 시작하고, 그 제품/서비스가 주는 혜택이나 도움이되는 내용을 고객이 이해하게 됨에 따라서 제품/서비스에 대해서 흥미(Interest)를 갖게 되는 단계를 거친다.  그리고 이러한 흥미가 고객과 밀접한 관계가 있음을 알게되면서 해당 제품/서비스에 대한 사용/소유 욕구(Desire)를 갖게 된다는 것이다. 그리고 마지막으로 고객은 해당 상품에 대한 구매 의사를 갖게 되고 매장에 방문하거나 온라인으로 접속해서 해당 상품을 시험사용하거나 구매하게 된다.

이처럼 AIDA 모델은 선형적이고 순차적 단계를 가지고 있으며 각 단계를 거치면서 고객 수는 줄어들게 된다. 이러한 현상을 구매 퍼널(The pharse funnel), 마케팅 퍼널, 또는 고객 퍼널 이라고 한다.

 

 

 

 

 

이처럼 고객 구매 행동 모델은 고객이 상품과 관련되서 생각하고 행동하게되는 단계를 나누어 놓은 것이다. 이러한 모델은 제조업의 쇄퇴와 서비스업의 증대, 온라인 서비스의 증가 등의 사회와 산업의 변화에 따라서 고객 구매 행동 모델도 AIDAS(Interest → Desire → Action → Satisfaction), AISDALSLove(Awareness → Interest → Search → Desire → Action → Like/dislike → Share → Love/Hate) 등 다양하게 변형 및 발전 되었다. 이처럼 여러 가지의 모델이 있기 때문에, 다루어야 할 제품/서비스에 따라서 그리고 마케팅 구조에 따라서 적합한 모델을 선택하고 검토하는 것이 중요하다.  본 연재의 목적은 고객 구매 행동 모델과 성격유형을 활용한 효과적인 고객 분석 방법에 대한 것 이므로 이후 부터는 가장 간단한 방법인 AIDA를 기준으로 한다. 기타 AIDA에 대한 자세한 내용은 아래의 Wiki 페이지를 참고하기 바란다.

AIDA 설명 from Wiki : https://en.wikipedia.org/wiki/AIDA_(marketing)

 

AIDA (marketing) - Wikipedia

Generalised hierarchy of effects sequence The AIDA model is just one of a class of models known as hierarchy of effects models or hierarchical models, all of which imply that consumers move through a series of steps or stages when they make purchase decisi

en.wikipedia.org

 

 

성격유형

성격유형은 널리 알려진 MBTI를 기준으로 설명하고자 한다. MBTI(Myers-Briggs Type Indicator)는 1962년에 Myers와 Briggs에 의해 고안된 성격 유형 지표이다.  에너지의 방향, 인식 기능, 의사결정 기능, 생활 양식, 이렇게 4개의 특성을 기준으로 측정하여 16개의 성격 유형으로 나눈다.

지표(성격) 과 설명: from Wiki

한 사람에 대해서 각 척도별로 두 지표중 어느 쪽에 더 가까운지를 정할 수 있고, 이렇게 정해진 4가지의 지표 특성을 조합하여 한 개인의 성격 유형이 된다.

따라서, 모든 사람은 아래와 같이 총 16가지의 성격 유형 중에 하나로 구분 될 수 있다.

MBTI 성격 유형 : from Wiki

MBTI 관련 보다 자세한 내용과 관련 정보는 아래의 한국MBTI연구소 홈페이지를 참고하기 바란다.

http://www.mbti.co.kr/

 

::(주)한국MBTI연구소::

 

www.mbti.co.kr

 

 

본 연재에서는 가장 많은 유형으로 알려진 ISTJ 유형을 기준으로 설명할 예정이다.

ISTJ는 내향/감각/사고/판단의 지표 특성을 가지는 성격 유형이다. 즉, 여러사람과 자주 어울리기 보다는 홀로 시간을 보내면서 에너지를 축적하는 내성적인 성격이며, 정보수집 시 직관이 아닌 감각을 이용하고, 의사결정 시에는 느낌이 아닌 사고(이성적 판단)을 기준으로하며, 생활양식으로는 계획적이고 규칙과 기한 준수를 중요하게 생각하는 성격인 사람들이다. 이러한 성격 특징들을 이해한 상태에서 고객 구매 행동 모델의 각 단계별로 어떤 고객 경험을 제공하는게 좋을 지를 세심하게 설계 해야만 많은 고객이 구매 퍼널을 쉽고 빠르고 통과 수 있을 것 이다. 다시말하면, 가장 좋은 고객 경험 설계는 고객 구매 행동 모델의 각 단계별로 16가지 성격 유형에 대하여 설계된 고객 경험 설계라고 할 수 있겠다. 

다음에는 본격적인 분석 방법에 대한 이야기를 진행해 보자. 말뭉치 분석에 기본이되는 워드 클라우드를 살펴보고, 그 다음 시간에는 데이터 분석을 통해 ISTJ 유형을 찾아내는 방법에 대해서 이야기해보자.

 

반응형
반응형

한 사람이 붐비는 인파를 뚫고 할인 매대에서 티셔츠를 집어들다.
"예쁘네 이거사야지!"
몆번 훌터보더니 바로 계산대로 가서 계산을 했다.
그런데 저쪽 구석에서 한참동안을 서서 옷들을 뒤척이고 몇번 입어보기 까지했던 한 젊은이는 그냥 매대를 떠난다.

'별의별 사람들이 다있어!, 성격 참 특이하네!!!'

성향에 대한 관심과 연구는 어제 오늘의 이야기가 아니다.
아마도 원시 시대에 함께 사냥을 하면서도 성격이야기를 했을 것이다.
오랜동안 심리학에서 연구되어 왔으며, 시장 자본주의 발달에 따라 이윤 추구의 대상이 되는 고객을 더 잘 이해하고자 심도 깊게 다루어 졌다.
무엇보다 인간 본성에 대한 관심은 인간으로써 갖게되는 특권이자 굴레이기 때문이 아닌가 싶다. 생각하는 동물의 특권이자, 정답 없는 질문과 대답의 연속인 것 같다.

이번 연재는 MBTI의 특징과 고객분석에서의 활용이라는 관점에서 이야기하고자 한다.

MBC, SBS 등 방송에서도 많이 언급되는 연예인들의 MBTI와 아예 방송 프로그램의 주제로 MBTI가 주제로 다루어지는 등 매우 많이 알려져있다. 정확한 정의를 보면 MBTI는 성격진단 및 분석에 사용되는 지표로 마이어스-브릭스 유형 지표(영어: Myers-Briggs Type Indicator, MBTI)의 약자이다.

이 것은 선호하는 세계, 인식형태, 판단기준, 생활양식, 이렇게 4개 요소를 중심으로 각 2가지의 구분을 이용하여 성격을 16종류로 분류 한 것이다.

내향 (Introversion) 외향 (Extroversion) 선호하는 세계: 내면 세계 / 세상과 타인
직관 (iNtuition) 감각 (Sensing) 인식형태: 실제 너머로 인식 / 실제적인 인식
감정 (Feeling) 사고 (Thinking) 판단기준: 관계와 사람 위주 / 사실과 진실 위주
인식 (Perceiving) 판단 (Judging) 생활 양식: 즉흥적인 생활 / 계획적인 생활

위키피디아 https://ko.wikipedia.org/wiki/MBTI


이처럼 한 사람에게서 특정한 방향성을 가지는 특징은 어린시절 경험했던 일들의 반영과 습관에서 기인한다고 생각한다.
이 얼마나 신기하고 드라마 같은 일인가!
당신이 어려서 격은 일들이 당신의 잠재의식 속에 성향으로 자리잡아서 당신의 평생을 바꾸다니! 특히나 중요한 결정이든 아니든 말이다...

이러한 성향은 성인이되어 자본 시장의 구성원으로써의 경제 활동에도 영향을 미친다. 따라서, 마케팅에서 말하는 구매단계와 MBTI 성향별 대응을 살펴보면 판매 전략방안을 어떻게 수립할 것인지 명확해질 것 이다.
(나중에 AIDA/AISAS 등과 성격유형( ISTJ등)을 매칭하여 정리할 예정이다)
따라서, 기업의 제품과 서비스에 맞게 성향별 전달 홍보 메시지를 다르게 하여 효과를 극대화 할수 있겠다.
예를들면, TJ에게는 기능성과 가성비 등을 중심으로 전달하고 FP에게는 사용시 느낌과 분위기, 그리고 타임세일의 실행이 효과적일 것이다.

성향 판단을 위한 데이터 분석 방법은 다음 부터 이야기하고자 한다.
대략의 순서는 빈출분석(워드 클라우드), 연관어 분석, 집단성향도출분석, 특성분류분석 등이 될 것 같다.

글을 잘 쓸 수 있도록 응원바란다.

전에 작성한 고객프로파일링 관련 글도 도움이 될것이다.
https://bigdatamaster.tistory.com/m/6

1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석

 1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석 안녕하세요, 주제는 고객 프로파일링 입니다. 특히, 고객 Communication 측면에서의 프로파일일에 대해서 이야기해 보겠습니다. 고객은 두

bigdatamaster.tistory.com

반응형
반응형

데이터 분석 방법론 (2) - 예시포함 (CRISP-DM)

데이터 분석 방법론에 대한 개요와 자료는 많이 쉽게 찾을 수 있는데 실질적인 사례나 예시에 해당하는 내용은 접하기 어려운 것이 현실인 것 같습니다.
그도 그럴 것이 일반적으로 학교에서 분석을 한다고하면 R이나 Spss, SAS 등의 툴을 가지고 리포트를 작성하는 내용 정도가 공유될 수 있을 것 같은데 이것은 실제 산업 현장에서 쓰이는 항목과 내용의 리포트, 방법론과는 다른 차이가 있을 것 같습니다. (아니 어느정도는 달라야만 할 것 같습니다. 이론과 실전, 목적이 다르니깐요...^^)


하여간, 그래서 졸업 후 바로 기업 현장에 투입되서 분석을 업무로 하다보면 품질 수준의 차이과 절차 상의 문제 등이 이슈화 되어서 종종 목소리가 커지는 일이 생기는 것 같습니다. 이것은 마치 소프트웨어 공학에서의 개발 방법론을 준수하지 않고 대규모 프로젝트를 시행하게 될 경우 중간에 문제가 발생하여 관계자간 이견으로 목소리가 커지고 심하게 되면 프로젝트가 실패하고 더 심하면 소송까지 가게되는 안좋은 일이 생기게 되는 것과 유사하다고 생각됩니다.


이러한 이유로 실제 사례나 예시 등을 공부하고 준비하는 것은 중요하다고 할 수 있겠습니다.
그래서 다시보면 CRISP-DM과 같은 방법론이 중요하고요


그러나......


여기서 CRISP-DM 방법론에 대한 구체적인 내용 자체에 대한 설명은 가급적 조금하겠습니다.
왜그러냐하면 그 내용은 전에 포스팅한 것도 있고, 각 단계의 정의나 개요는 구글, 네이버를 찾아보시면 금방 나옵니다.
자료도 많고요.


따라서, 여기서는 각 단계에서 실제 분석 사례를 설명하면서 어떤 항목과 내용을 정리/진행했는지 말씀드려 보겠습니다.


참고) KDD, SEMMA, CRISP-DM 개념 관련해서는 이전에 작성한 아래 글을 참고해주세요.

https://bigdatamaster.tistory.com/11

 

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM)

데이터 분석 방법론 (KDD, SEMMA, CRISP-DM) 데이터 분석 방법론 막상 데이터 분석을 하려고 하면 막막할 때가 많습니다...이럴때 미리 잘 정리된 절차와 방법을 따라서 하나씩 진행한다면 쉽게 접근할

bigdatamaster.tistory.com

 

 


1. 배경 및 목표 : 뭐 할라고??? 왜???

가. 비즈니스 배경 및 목적
경우에 따라 이러한 내용 뿐만 아니라 분석을 진행하려는 기업의 일반적인 정보에 대한 분석이 필요하기도 합니다. 비즈니가 처해있는 상황, 문제점, 사업 목표, 조직구성 등도 프로젝트를 완료하는데 도움이 됩니다.
예를 들면 대리점의 매출 저하로 인해 사업 성장에 문제가 발생하고 있어서 이를 개선하기 위한 니즈가 있을 수 있겠습니다.


나. 분석 목적 및 목표

왜 데이터 분석을 하려고하는가? 분석해서 무슨 효과를 내려고 하는가? 데이터 분석과 비즈니스와는 어떤 관계가 있는가? 이처럼 분석하려는 이유와 목적을 명확히 해야만 프로젝트에 혼선이 없고 힘을 집중할 수 있습니다. 
비즈니스 목적이 대리점의 매출을 증대 시키는 것이라고 하면, 분석 목적으로는 매출 증대가 가능한 대리점을 찾아내는 분석 모델이나 증대 가능한 정도를 예측하는 모델 수립을 목적으로 할 수 있겠습니다.
 

 

 

2. 데이터 이해 : 데이터 넌 어떻게 생겨먹었니?

 

가. 초기 데이터 수집


분석 목적에 따라 관련있는 데이터를 찾아서 수집해야합니다. 보통 기업에서는 데이터를 DBMS에 관리하기 때문에 업무담당자와 DBA를 통해서 필요하다고 생각되는 데이터를 확보할 수 있습니다. 일반적인 기업의 관점에서 ,,,데이터 성격 유형을 나누어 보면 고객 데이터, 상품 데이터, 구매 데이터, 로그 데이터 등이 있겠습니다. 이러한 데이터를 생성하고 보관하는 시스템으로 부터 데이터를 다운 받아서 확보합니다.
사례의 경우에도 영업시스템의 DBMS에서 데이터를 다운 받아서 초기 데이터를 수집하였습니다.



나. 데이터 기술


확보한 데이터가 어떤 데이터인지를 설명하는 자료를 만든다고 생각하시면 됩니다. 각각의 시스템, 테이블 별로는 몇건의 데이터가 들어있고 테이블의 항목은 어떤 것들이 있으며 데이터 유형(범주형, 연속형, integer, numeric, character 등)은 이렇다고 정리해 놓는 것입니다. 코드로 관리하는 것은 어떤 것들이 있으면 주요 코드의 해석은 이렇게 한다.등등. IT 시스템의 데이터 관리 측면에서 보면 Metadata와 데이터 품질에 해당하는 정보를 제공한다고 생각하면 이해가 쉬울 것 같습니다. 물론 통계 분석의 기술분석에 해당하는 정보들도 제공되면 좋습니다.



 

 

 


3. 데이터 전처리 : 지루하지만 중요한 작업, 장인 정신으로 한땀 한땀...

 

가. 데이터 정제
데이터를 클린징합니다. 일반적인 데이터의 문제로는 데이터 누락(데이터가 빠져있거나), 오류(엉뚱한 값이 들어있거나), 이해 부족(Metadata가 없어서 무슨 의미의 데이터 인지 모르는 경우) 등이 있을 수 있습니다.
대리점 코드가 빠져 있거나, 생성규칙에 안 맞는 이상한 대리점 코드가 들어 있거나, 이해할 수 없는 컬럼명이 있거나 하는 경우 입니다.
이러한 경우 정제 작업을 통해 데이터를 체워 넣고, 오류를 정정/변환하고, 생성원천을 찾아서 의미를 알아 냅니다.

나. 데이터 생성 / 통합
말 그대로 데이터를 만들고 통합해서 모델을 돌리기 좋게 만들어 놓습니다. 보통은 하나의 (파일) 데이터 셋으로 만들어 놓지요.


다. 데이터 확정
앞선 데이터 이해 단계를 통해 대상 데이터 종류(구분) 및 건수, 분석 기간, 분석 기준 시점 등을 정합니다.


팁으로 모든 활용 가능한 데이터를 분석할 수는 없습니다. 그리고 그럴 필요도 없습니다.
분석 목적에 맞게 최적의 대상 범위를 정하면 됩니다. 데이터 기간이 그렇고, 대상 종류도 그렇고, 데이터 건수이 그렇습니다.
데이터 기간은 분석 목적에 맞는 기간을 확보해야합니다. 다음 달의 대리점별 추정 매출액을 구하는 모델을 만들 경우 대리점 개점이후 모든 월 매출액 정보가 있어야만하는 것은 아닙니다. (필요하다고 다 있지도 않고요.^^) 직전월, 또는 직전 3개월, 6개월, 12개월 정도 기간의 데이터만 있어도 여러 분석 방법을 이용해서 돌릴 수 있습니다.
대상 종류와 건수도 목적에 맞게 조정해서 정하는게 모델의 정확도를 높일 수 있습니다. 예를 들면 수도권 대리점의 추정 매출이 필요하면 (당연하지만) 수도권의 대리점과 관련된 데이터만 처리하면 됩니다. 건수도 적용 알고리즘에 따라 조금씩 다르겠지만 일반적인 통계 분석의 경우 F검정 후 t검정을 통과하는 정도만으로도 성능에 차이가 크지 않습니다.
(물론 빅데이터 시대가 되면서 이러한 부분은 많이 안 중요해 지고 있습니다. 그냥 가능한 다 적용하는 거죠. 그래도 그보다는 빠르고 효과적인 분석을 원한다면 고려해보는게 좋습니다.)




4. 모델링 : 노른자, 붕어빵에 단팥...


가. 활용 모델링 기술 선정
적합한 모델링 기술을 정하기 위해 알아두면 좋은 질문들이 있습니다. 아래 질문을 통해서 어느 모델링 기술이 적합한지를 생각해 볼 수 있습니다.

  • 충분한 신뢰도를 만들 만한 데이터량을 가지고 있는가?
  • 일정수준 이상의 데이터 품질이 필요한 모델인가?
  • 보유 데이터가 특정 모델에서 사용하기에 적합한 형태인가?

마지막 질문의 답으로 적합하지 않은 데이터라 하더라도 데이터 변환 작업을 하면 모델에서 사용할 수 있게 만들 수는 있습니다. 그러나 이러한 변환에 따른 성능의 영향도를 고려해서 결정해야 합니다. 안그러면 억지로 돌린 꼴이 되니까요.
대리점 매출 추정 예에서는 Regression을 사용했습니다. 여러가지 요인들의 영향도를 파악해서 회귀식으로 만들었다.


나. 테스트 방안 설계 수립
어떤 모델링이 잘된 모델링인지 먼저 정해놓아야 딴소리가 없습니다.. 그러기 위해서 어떻게 테스트하고 쓸만한 모델인지를 평가하는 방법과 기준을 정해 놓아야 합니다.
즉, 모델링 기술에 따라 성능을 분석할 수 있는 지표를 미리 정하고 이 지표의 수준을 미리 정해 놓아야 합니다. 지도학습의 경우 (오분류표의) 오류율을 정하거나, 클러스터링 같은 비지도학습의 경우 실루엣이나 중심점과의 오차값 평균 등이 될 수 있겠습니다. 그리고 당연히 테스트를 위한 데이터는 별도로 만들어 놓아야 합니다. 보통은 모델 훈련 시 전체 분석 데이터의 70%를 이용해서 모델링하고, 나머지 30%를 테스트에 사용합니다.
사례에서도 7 대 3으로 나누어 진행했고 추정 매출액과 실제 매출액의 SME를 기준으로 10% +-를 목표로 잡았다.

 

 

5. 평가 : 얼마나, 무슨 의미가 있나??? 잘 한건가?

미리정해 놓은 폭표에 대비해서 어떻게 성과가 나왔는지를 정리하는 단계 입니다. 통계 모델의 입장에서 원하는 목표 성능은 나왔는지 그리고 이러한 성과가 비즈니스에 어떠한 의미를 주고 효과를 가져올 것인지 등을 정리하는 것 입니다.
그래서 제 생각에 이 단계에서는 성능 지표 분석과 모델/성능 최적화를 해야할 것 같습니다.
물론 많이 와서 전단계로 돌아가기 힘들지만 결국 이러한 순환/반복적인 작업이 바로 분석의 작업이고 의미있는 Insight를 찾아 내기 위한 활동이니까요. 이러한 경험과 노하우를 가지고 초기 데이터 정의, 전처리 단계 부터 여러 경우를 고려하면서 준비하면 빠르게 작업해 나갈 수 있습니다.


6. 발표/보고 : 이건 예술이야..!!!


드디어 마지막 단계인 Deployment 단게에 왔습니다.
이단계에서는 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시하는 단계 입니다. 간단히 말하면 완료 보고서를 쓰는 단계이지요. 프로젝트의 개요를 설명하고 비즈니스/데이터에 대한 이해 내용을 설명하고, 전처리 단계와 적용한 모델링 기술에 대한 내용을 설명하고, 결과로 나온 내용과 그 의미/시사점을 정리하면 됩니다. 마지막으로 향후 자동화 구축 방안 또는 모니터링 방안 등을 추가하여 보고하면 마무리 됩니다.


데이터 분석은 예술의 한 분야라고 생각합니다.
그림을 그리거나 글을쓰거나 또는 음악을 만들때 완벽한 것은 만들수 없습니다.
정말 드물게는 왼벽하다고 느낄 수도 있으나 일시적인 것이고 주관적인 입장에서만 그렇습니다.
데이터 분석도 그런 것 같습니다. 며칠 밤을 세워서 데이터를 정재하고 모델을 만들어도 마음에 쏙드는 결과를 얻는 것은 거의 물가능합니다. 다시 정재하고 보완하면 좋아질 수 있지만 이또한 완벽할 수 없지요.
그래서 방법론이라는 부분도 완벽할 수 없습니다. 모든 프로세스와 타스크를 체워 넣는다고해서 품질 좋은 모델이 만들어지는 것은 아닙니다.
결국 여러분이 진행하시려는 분석의 상황에 맞게 핵심 타스크를 잘 골라서 사용하시면 됩니다.
바로 예술적으로 말이죠....


도움이 되셨길 바라고 명품을 만드시길 바랍니다.

그리고 다른 글에서 실제 고객분석의 이론과 실무 방법을 알려드리겠습니다.




 

 

반응형

+ Recent posts