'텍스트분석' 태그의 글 목록

텍스트분석

TF-IDF tfidf

2022. 3. 17. 12:22

주요 내용

개요
TF-IDF 계산 해보기
TF-IDF의 장점 및 단점

1. 개요

TF-IDF 는 BoW(Bag of Words)와 마찬가지로 텍스트 데이터를 (컴퓨터에서 사용하기 위해) 표현하는 방법중 한가지 방법 입니다. 정보 검색과 텍스트 마이닝에 많이 쓰입니다. 특히, 이 방법은 단어의 출현 빈도를 가지고 단어의 중요도를 표현하는 방법입니다. 그래서 해당 문서에서의 단어 출현 횟수와 다른 전체 문서에서의 출현 횟수를 고려해서 중요도를 계산합니다. 해당 문서에서의 단어 출현 횟수는 많으면 많을 수록 단어의 중요도가 더 높아지고(Term Frequency), 다른 전체 문서에서의 출현 횟수가 많아지면 많아 질수록(다른 문서에서도 많이 쓰이면 쓰일 수록) 중요도가 떨어지게하는(Inverse Document Frequency) 숫자를 만드는 방법 입니다.
예를 들어 보겠습니다. '노란 사자 왕' 이란 검색어와 가장 적절한 문서를 찾으려면 어떻게 해야할 까요? 가장 간단한 방법은 각 단어가 포함되어 있는 문서를 찾는 것일 것입니다. 그런데 이런 문서가 10,000개 있다면 어떻게 해야 할까요? 네, 여러번 '노란', '사자', '왕' 이란 단어가 들어가 있으면 더 적절한 문서라고 할 수 있을 것 같습니다. 그런데 이렇게 해서 다시 필터링해보니 100건이 나왔다고 합시다. 여러번 나왔으니 더 적절한 문서라고 할 수 있지만 문서의 길이를 고려하지 못해서 전체 문서에서의 단어 중요도가 반영되지 못했습니다. 1페이지 문서에서 10번 나온 것과 100페이지 문서에서 10번 나왔다면 1페이지에서 10번 나온 문서가 더 밀접한 관계가 있다고 말할 수 있습니다. 그래서 문서의 길이를 고려한 출현 횟수를 산정하는 방법이 바로 Term Frequency 입니다. 그래서 간단한 공식으로는 단어 출현횟수/ 문서내 전체 단어수가 되겠습니다.
그럼 두번째 전체 문서에서의 출현 횟수 왜 필요할까요? 문서중에는 의미가 없는 단어들도 매우 많습니다. 행태소 분석시 나오는 '는', '를', 'ㅂ니다' 같은 요소들은 의미는 없지만 일반적으로 매우 많이 출현하는 단어에 해당합니다. 이러한 단어들에게는 매우 작은 값으로 계산되는 것이 필요하겠습니다. 그러면 이런 숫자는 어떻게 계산할까요? 위에서 설명한 것처럼 모든 문서에서 나타나면 안 중요한 단어이고 해당문서에서만 나타나면 중요한 단어인 것이지요. 이렇게 만들려면 전체 문서수와 해당 단어가 나타난 문서수의 비율로 계산할 수 있겠습니다. 전체 문서수 / 해당 단어 출현 문서수 이렇게 계산하면 되겠군요. 100 개 문서중에 1번 나타난 단어(100/1=100)와 100개 문서중에 10번 나타난 단어(100/10=10)는 중요도가 달라집니다. 그런데 이렇게 하면 전체 문서와 단어 출현 문서수가 클 경우 중요도 차이가 너무 크게 됩니다. 그래서 여기에 log 를 적용하여 숫자를 작게 만듭니다. log(100) = 2, log(10) = 1. 아까는 차이가 9였는데 이제는 1이 되었네요. 그래서 간단한 공식으로는 log(전체 문서수/해당 단어 출현 문서수)가 됩니다. 이것이 Inverse Document Frequency입니다.
그런데 다른 자료들을 보면 계산하는 방법이 이렇게 간단하지 않고 복잡하고, 방법도 여러가지가 있는 걸까요? 그 이유는 좀더 정확한 계산을 위해서 단순한 출현 횟수를 그대로 사용하지 않고 변환을 하기 때문에 그렇습니다. 위에서 log를 적용한 것처럼 말이죠. 중요한 것은 기본을 이해하는 것 입니다. 기본을 이해해야 변형을 이해하기 쉽습니다. 기본은 위에서 말씀 드린 것 처럼 어렵지 않습니다.

큰 숫자에 대응하기 위해 log를 사용하고 분모/분자가 0이 되면 안되므로 문서가 없을 때를 대비해서 분모/분자에 1을 더해줍니다. 그래서, TF-IDF의 공식은 아래와 같습니다.

해당 단어의 TF-IDF = Term Frequency X Inverse Document Frequency
해당 단어의 TF-IDF = TF(t,d) X IDF(t, D)
해당 단어의 TF(t,d) = log (f(t,d) + 1)
해당 단어의 IDF(t, D) = log (D / ( {d in D : t in d} ) + 1) )
t: 해당 단어
d: 해당 문서
D: 전체 문서 개수

2. TF-IDF 계산 해보기

위에서 말씀드린 공식을 이용해서 실제 TF-IDF 값을 계산해 보겠습니다.

Data

아래와 같은 데이터를 가정하겠습니다.

총 문서 데이터 개수, D = 10

각 문서 별 내용

d1 = “I love apple"

d2 = “I love peach”

d3 = “I love lion"

d4 = “You love lemon”

d5 = “Youlove horse"

d6 = “Youlove lion”

d7 = “We love tiger"

d8 = “We hate apple”

d9 = “We hate banana"

d10 = “They hate peach”

d1의 tf-idf 구하기

문서 d1에 대하여 TF-IDF를 구합니다. ln은 자연로그 입니다.

t = “I” d1 = “I love apple"
tf(t,d) = tf(“I”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (3 + 1)). = ln(2.5) = 0.9162 10개 문서중 3개 문서에서 I 가 발견됨
“I” tfidf = tf(“I”,d1) * idf(“I", 10) = ln(2) * ln(2.5) = 0.6931 * 0.9162 = 0.6350 ("I"의 TF-IDF입니다.)

t = “love” d1 = “I love apple"
tf(t,d) = tf(“love”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (7 + 1) ) = ln(1.25) = 0.22314 10개 문서중 7개 문서에서 love 가 발견됨니다.
“love” tfidf = tf(“love”,d1) * idf(“love", 10). = ln(2) * ln(1.25) = 0.6931 * 0.22314 = 0.15466 (love라는 단어가 많은(7개) 문서에서 나타나기 때문에 tfidf 값이 비교적 작습니다. 단어가 주는 차별성/특성이 작다고 할 수 있습니다.)

t = “apple” d1 = “I love apple"
tf(t,d) = tf(“apple”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (2 + 1) ) = ln(3.3333) = 1.2039 10개 문서중 2개 문서에서 apple 가 발견됩니다.
“apple” tfidf = tf(“apple”,d1) * idf(“apple", 10). = ln(2) * ln(2.4285) = 0.6931 * 1.2039 = 0.8344 (apple라는 단어가 적은(2개) 문서에서 나타나기 때문에 tfidf 값이 비교적 큽니다. )

d1 = “I love apple” = [0.6350, 0.15466, 0.8344]

d2의 tf-idf 구하기

t = “I” d2 = “I love peach”
tf(t,d) = 0.6931
idf(t, D) = 0.9162
“I” tfidf = 0.6931 * 0.9162 = 0.6350

t = “love” d2 = “I love peach”
tf(t,d) = 0.6931
idf(t, D) = 0.22314
“peach” tfidf = 0.6931 * 0.22314 = 0.15466

t = “peach” d2 = “I love peach”
tf(t,d) = tf(“peach”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (2 + 1) ) = ln(3.3333) = 1.2039 10개 문서중 2개 문서에서 peach 가 발견됩니다.
“peach” tfidf = tf * idf = 0.6931 * 1.2039 = 0.8344

d2 = “I love peach” = [0.6350, 0.15466, 0.8344]

d10의 tf-idf 구하기

t = “They” d10 = “They hate peach”
tf(t,d) = tf(“They”,d10) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (1 + 1)). = ln(5) = 1.6094 10개 문서중 1개 문서에서 They 가 발견됨
“They” tfidf = tf(“They”,d10) * idf(“They", 10) = ln(2) * ln(2.5) = 0.6931 * 1.6094 = 1.1154 (They라는 단어가 하나의 문서에서 나타나기 때문에 tfidf 값이 매우 큽니다. )

t = “hate” d10 = “They hate peach”
tf(t,d) = tf(“hate”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (3 + 1) ) = ln(2.5) = 0.9162 10개 문서중 3개 문서에서 hate 가 발견됨
“hate” tfidf = tf(“hate”,d1) * idf(“hate", 10). = ln(2) * ln(1.25) = 0.6931 * 0.9162 = 0.6350 (hate라는 단어가 적은 문서(3)에서 나타나기 때문에 tfidf 값이 비교적 큽니다. )

t = “peach” d10 = “They hate peach”
tf(t,d) = tf(“peach”,d1) = ln (1 + 1) = 0.6931 (count 로 할때, 문서 d에서 t가 발견되는 건수)
idf(t, D) = log (D / {d in D : t in d} ) = ln(10 / (2 + 1) ) = ln(3.3333) = 1.2039 10개 문서중 2개 문서에서 peach 가 발견됩니다
“peach” tfidf = tf(“peach”,d1) * idf(“peach", 10). = ln(2) * ln(2.4285) = 0.6931 * 1.2039 = 0.8344 (peach라는 단어가 적은(2개) 문서에서 나타나기 때문에 tfidf 값이 비교적 큽니다. )

d10 = “They hate peach” = [1.1154, 0.7614, 0.8344]

Summary

d1 = “I love apple” = [0.6350, 0.1546, 0.8344]

d2 = “I love peach” = [0.6350, 0.1546, 0.8344]

d10 = “They hate peach” = [1.1154, 0.6350, 0.8344]

각 문서별 벡터를 가지고 TF-IDF 메트릭스를 만듭니다.

word	d1	d2	d10
i	0.6350	0.6350	0
love	0.1546	0.1546	0
apple	0.8344	0	0
they	0	0	1.1154
hate	0	0	0.6350
peach	0	0.8344	0.8344

문서 간의 유사도 계산

d1 d2유사도 = (0.6350 * 0.6350) + (0.1546*0.1546) + (0.8344*0) + (0*0.8344) = 0.42712616

d1 d10 유사도 = (0.6350 * 0) + (0.1546*0) + (0.8344*0) + (0*1.1154) + (0*0.7614) + (0*1.1154) = 0

d2 d10 유사도 = (0.6350 * 0) + (0.1546*0) + (0.8344*0.8344) = 0.6962

해석: 3개의 문서중에는 d2과 d10이 가장 유사하고, d1과 d10은 완전히 다른 문서이다.

상기와 같이 문서간의 유사도 계산 뿐만아니라 키워드(검색어)를 가지고 유사도를 계산하면 유사한 문서를 가져오는 정보 검색에 사용할 수 있습니다.

3. TF-IDF의 장점 및 단점

1. 위 예시에 행렬 테이블에서도 보이는 바와 같이 0이 많이 들어있는 행렬 테이블이 만들어져서 문서의 길이가 길고 중복된 단어가 적을 수록 더 비효율 적입니다. sparce matrix (many number of 0 value)

2. 간단하게 단어의 개수로 표현되어 구현이 쉽지만 단어 위치의 의미를 파악하지는 못합니다. 문서 d1에 있는 i 와 문서 d10에 있는 hate 가 다른 단어 임에도 불구하고 같은 값 0.6350을 갖습니다. simple count of words, not present meaning of position(‘i' in d1 and ‘hate' in d10 have same value, 0.6350)

3. TF-IDF 메트릭스(행렬)에 없는 새로운 단어가 들어오면 계산할 수 없습니다. cold start, new words come, need new matrix(‘happy’?...) 이러한 부작용을 줄이기 위해 BoW(Bag of Words)에서와 마찬 가지로 더미 워드나, hashing 기법 등을 이용할 수 있습니다.

이렇게 정보검색과 텍스트 마이닝에 많이 쓰이는 단어의 중요도 표현 방법중 하나인 TF-IDF에 대해서 알아보고 실제로 계산을 해보았으며, 장점과 단점에 대해서도 이야기해 보았습니다.

https://bigdatamaster.tistory.com/159

BoW : Bag of Words

BoW: Bag of Words BoW는 자연어 즉, 텍스트(text)를 처리하는 방법 중에 하나로 간단하고 이해하기 쉬운 방법중 하나입니다. 짧게 말하면 단어가방(Bag of Words)를 가지고 문장을 표현하는 방법 입니다.

bigdatamaster.tistory.com

저작자표시 비영리 변경금지

'인공지능-기계학습 > 언어인지_NLP' 카테고리의 다른 글

원 핫 인코딩? One-Hot Encoding? (0)	2022.04.24
Tokenization이란? 토큰화? 토크나이제이션? (0)	2022.04.16
BoW : Bag of Words (0)	2022.03.15
NLP: Natural Language Processing 자연어 처리 (0)	2022.03.05
최고의 챗봇 플랫폼 2021 (0)	2021.11.18

BoW : Bag of Words

2022. 3. 15. 12:46

BoW: Bag of Words

BoW는 자연어 즉, 텍스트(text)를 처리하는 방법 중에 하나로 간단하고 이해하기 쉬운 방법중 하나입니다. 짧게 말하면 단어가방(Bag of Words)를 가지고 문장을 표현하는 방법 입니다.

왜, BoW가 필요한가?

컴퓨터는 0과 1밖에 모릅니다. 0 또는 1일 표시할 수 있는 이진수에서 1자리를 bit 비트라고 합니다. 그래서 1비트는 1자리 2비트는 2자리입니다. 8비트를 1바이트(byte)라고 하고 1,000바이트를 1KB(킬로바이트)라고 합니다. 1,000 KB를 1MB(메가바이트), 1,000 MB를 1GB(기가바이트) 라고합니다. 이처럼 컴퓨터에서 정보를 처리하는 단위는 비트 입니다. 그런데 NLP에서 다루고자 하는 것은 텍스트(text) 데이터 입니다. 물론 텍스트 데이터도 컴퓨터에서는 비트로 저장되고 처리되지만 언어적인 특성을 고려한 상태에서의 저장이 아니라 문자 자체로의 저장입니다. 예를 들면 비트로 저장시에는 주어, 동사, 목적어, 보어 등 문법적인 언어적인 내용을 저장하지 않습니다. 단지, 예를 들면 'ㄱ'은 '11100011 10000100 10110001' 로 저장합니다. 뒤에 'ㅏ' (11100011 10000101 10001111) 와 합쳐서 '가'를 저장하고 표현할 뿐입니다. 이처럼 기본적인 컴퓨터에서 문자의 표현을 위한 데이터가 아니라 자연어 정보의 표현을 위한 데이터가 필요합니다. 그래야 이것을 이용해서 모델에서 사용할 수 있습니다. 이처럼 자연어를 모델이 다룰 수 있는 형태로 표현하는 방법중하나가 BoW 입니다. 예를 들어보겠습니다. 다음과 같은 문장이 있습니다. " 나는 사과를 좋아합니다." 이 문장을 어떻게 표현 할 수 있을까요? 여러가지 방법이 있지만 BoW로 표현할 수 있습니다.

BoW는 무엇인가?

BoW는 텍스트를 표현하는 방법 중 하나로 단어 가방(Bag of Words)을 이용하여 문장 또는 문서를 표현하는 방법입니다. 단어 가방에는 단어들이 들어있고 문장은 어떤 단어가 몇번 사용되었는지를 가지고 표현하는 방법입니다.

BoW 예시

여러분은 오늘 막 입학한 유치원생 이라고 생각해 봅시다. 유치원 단어 놀이 시간이 돌아왔다고 가정해 보시지요. 단어 놀이는 단어 가방에서 단어가 적힌 카드들을 넣어 두었다가 꺼네서 문장을 만드는 놀이입니다. 단어 가방 안에 '나는', '사과를', '좋아합니다', '바나나를', '정말'이라는 단어가 각각 쓰여진 총 5개의 단어 카드가 들어 있습니다.

이 단어 가방에서 "나는 사과를 좋아합니다"라는 문장을 만들기 위해서는 어떤 카드를 몇개 뽑아야 할까요? 네, '나는', '사과를', '좋아합니다' 각각 1개씩 있으면 됩니다. 이것을 기호로 표시해보면 다음과 같습니다. {'나는': 1, '사과를': 1, '좋아합니다': 1} 한번 더 해보시지요. 이번에는 "나는 정말 정말 바나나를 좋아합니다"를 만들어 보겠습니다. 결과는 순서와 상관없이 다음과 같이 표현할 수 있습니다. {'나는': 1, '정말': 2, '바나나를': 1, '좋아합니다': 1}
단어 가방는 단어가 중복되어 들어있지 않습니다. 그래서 각 단어에 순번을 할당하면 순번만으로도 어떤 단어인지를 알수 있습니다. 즉, 1번 카드에는 '나는'이 적혀있고, 2번카드에는 '사과를'이라고 적혀있다고 생각할 수 있습니다. 그러면 단어 가방에는 다음과 같이 들어있다고 할 수 있습니다. {0: '나는', 1: '정말', 2: '바나나를', 3: '좋아합니다', 4: '사과를'}
이러한 단어 가방을 이용하여 "나는 사과를 좋아합니다" 문장을 하나의 표현하면 [1, 0, 0, 1, 1] 으로 표현할 수 있습니다. 왜냐하면 첫번째 자리는 '나는'이고 문장내에 '나는'이 한번 있으므로 1로 표시됩니다. 두번째 자리는 '정말'을 의미하는데 문장에 해당 단어가 없으므로 0으로 표시합니다. 세번째 자리는 '바나나를'의미하는데 표현하려는 문장에 '바나나를'이 없으므로 0입니다. 네번째 자리는 '좋아합니다'의 자리인데 문장중에 있으므로 1로 표시됩니다. 마지막 다섯번째 자리는 '사과를'을 의미하고 문장에 '사과를'이 있으므로 1로 표시합니다. 같은 방법으로 두번째 예시 문장인 "나는 정말 정말 바나나를 좋아합니다."를 BoW로 표현하면 [1, 2, 1, 1, 0]이 됩니다.
이처럼 단어 가방을 이용하여 문장을 표시하는 방법이 Bag of Words(BoW) 방법입니다. 예시의 간단한 설명을 위해서 문장을 그대로 이용했는데 자세한 분석을 위해서 형태소 분석을 통해 단어를 분리하여 단어 가방에 넣을 수 있습니다.(예: 나, 는, 바나나, 를, 좋아, 합니다.)

장점 및 단점

위의 예에서 보신 것처럼 BoW는 문장내에서 단어의 순서나 위치를 고려하지 않습니다. 그냥 출현 횟수만을 관리합니다. 그래서 주어, 동사, 목적어 등 위치에 따른 의미 파악이 안되고 앞뒤 단어와의 관계를 고려한 분석이 안됩니다. 그래서 여러 뜻을 가진 단어나 동의어를 파악하거나 활용하지 못합니다. 그리고 새로운 단어의 표현을 위해서는 단어 가방에 단어를 추가하고 다른 문장들에도 표현을 변경해 주어야합니다. 그래서 잦은 단어추가가 필요한 곳에는 적합하지 않습니다.(물론 데이터 양이 적으면 사용가능하고요 이러한 단점을 보완하기 위해 Dummy word를 임의로 추가하거나 해싱 트릭 hashing trick을 이용할 수도 있지만 문제를 완전히 해결하지는 못합니다. ) 그대신 구조가 간단해서 처리 속도가 빠르고 이해하기 쉽습니다. 그래서 문제를 머신러닝으로 풀수 있는지 없는지를 빠르게 검증하고자 하는 단계에서 많이 사용되는 방법입니다.

Python 구현 코드

from konlpy.tag import Kkma

sentence = "나는 정말 정말 바나나를 좋아합니다."

def print_bow(sentence):
    kkma = Kkma()
    pos = kkma.pos(sentence)
    bow = {}
    for word in pos:
        try:
            bow[word[0]] += 1
        except KeyError:
            bow[word[0]] = 1

    print("BoW 표현: ", bow)
    print("단어 개수: ",len(bow))

print_bow(sentence)

output 실행 결과

BoW 표현:  {'나': 1, '는': 1, '정말': 2, '바나나': 1, '를': 1, '좋아하': 1, 'ㅂ니다': 1, '.': 1}
단어 개수:  8

유사하지만 조금 더 복잡하고 정교한 표현이 가능한 TF-IDF 도 많이 쓰입니다.

https://bigdatamaster.tistory.com/147

TF-IDF tfidf

주요 내용 개요 TF-IDF 계산 해보기 TF-IDF의 장점 및 단점 1. 개요 TF-IDF 는 BoW(Bag of Words)와 마찬가지로 텍스트 데이터를 (컴퓨터에서 사용하기 위해) 표현하는 방법중 한가지 방법 입니다. 정보 검색

bigdatamaster.tistory.com

Bag of Words 를 이용한 어플리케이션이라고 할 수 있는 워드클라우드에 대해서는 아래의 링크를 참고해주세요.

https://bigdatamaster.tistory.com/99

[연재] 고객분석 2 - 워드 클라우드를 이용한 고객 성향 분석 및 판단

어떻게 하면 고객의 성향을 알수 있을까? 가장 확실한 방법은 MBTI 테스트를 고객 별로 실행하고 결과를 확인하는 것이다. 이보다 확실 할 수는 없다. 그러나 실제 고객 분석 시 실현 가능성이 매

bigdatamaster.tistory.com

저작자표시 비영리 변경금지

'인공지능-기계학습 > 언어인지_NLP' 카테고리의 다른 글

원 핫 인코딩? One-Hot Encoding? (0)	2022.04.24
Tokenization이란? 토큰화? 토크나이제이션? (0)	2022.04.16
TF-IDF tfidf (0)	2022.03.17
NLP: Natural Language Processing 자연어 처리 (0)	2022.03.05
최고의 챗봇 플랫폼 2021 (0)	2021.11.18

[연재] 고객분석ㅡMBTI

2021. 6. 10. 10:37

한 사람이 붐비는 인파를 뚫고 할인 매대에서 티셔츠를 집어들다.
"예쁘네 이거사야지!"
몆번 훌터보더니 바로 계산대로 가서 계산을 했다.
그런데 저쪽 구석에서 한참동안을 서서 옷들을 뒤척이고 몇번 입어보기 까지했던 한 젊은이는 그냥 매대를 떠난다.

'별의별 사람들이 다있어!, 성격 참 특이하네!!!'

성향에 대한 관심과 연구는 어제 오늘의 이야기가 아니다.
아마도 원시 시대에 함께 사냥을 하면서도 성격이야기를 했을 것이다.
오랜동안 심리학에서 연구되어 왔으며, 시장 자본주의 발달에 따라 이윤 추구의 대상이 되는 고객을 더 잘 이해하고자 심도 깊게 다루어 졌다.
무엇보다 인간 본성에 대한 관심은 인간으로써 갖게되는 특권이자 굴레이기 때문이 아닌가 싶다. 생각하는 동물의 특권이자, 정답 없는 질문과 대답의 연속인 것 같다.

이번 연재는 MBTI의 특징과 고객분석에서의 활용이라는 관점에서 이야기하고자 한다.

MBC, SBS 등 방송에서도 많이 언급되는 연예인들의 MBTI와 아예 방송 프로그램의 주제로 MBTI가 주제로 다루어지는 등 매우 많이 알려져있다. 정확한 정의를 보면 MBTI는 성격진단 및 분석에 사용되는 지표로 마이어스-브릭스 유형 지표(영어: Myers-Briggs Type Indicator, MBTI)의 약자이다.

이 것은 선호하는 세계, 인식형태, 판단기준, 생활양식, 이렇게 4개 요소를 중심으로 각 2가지의 구분을 이용하여 성격을 16종류로 분류 한 것이다.

내향 (Introversion)	외향 (Extroversion)	선호하는 세계: 내면 세계 / 세상과 타인
직관 (iNtuition)	감각 (Sensing)	인식형태: 실제 너머로 인식 / 실제적인 인식
감정 (Feeling)	사고 (Thinking)	판단기준: 관계와 사람 위주 / 사실과 진실 위주
인식 (Perceiving)	판단 (Judging)	생활 양식: 즉흥적인 생활 / 계획적인 생활

위키피디아 https://ko.wikipedia.org/wiki/MBTI

이처럼 한 사람에게서 특정한 방향성을 가지는 특징은 어린시절 경험했던 일들의 반영과 습관에서 기인한다고 생각한다.
이 얼마나 신기하고 드라마 같은 일인가!
당신이 어려서 격은 일들이 당신의 잠재의식 속에 성향으로 자리잡아서 당신의 평생을 바꾸다니! 특히나 중요한 결정이든 아니든 말이다...

이러한 성향은 성인이되어 자본 시장의 구성원으로써의 경제 활동에도 영향을 미친다. 따라서, 마케팅에서 말하는 구매단계와 MBTI 성향별 대응을 살펴보면 판매 전략방안을 어떻게 수립할 것인지 명확해질 것 이다.
(나중에 AIDA/AISAS 등과 성격유형( ISTJ등)을 매칭하여 정리할 예정이다)
따라서, 기업의 제품과 서비스에 맞게 성향별 전달 홍보 메시지를 다르게 하여 효과를 극대화 할수 있겠다.
예를들면, TJ에게는 기능성과 가성비 등을 중심으로 전달하고 FP에게는 사용시 느낌과 분위기, 그리고 타임세일의 실행이 효과적일 것이다.

성향 판단을 위한 데이터 분석 방법은 다음 부터 이야기하고자 한다.
대략의 순서는 빈출분석(워드 클라우드), 연관어 분석, 집단성향도출분석, 특성분류분석 등이 될 것 같다.

글을 잘 쓸 수 있도록 응원바란다.

전에 작성한 고객프로파일링 관련 글도 도움이 될것이다.
https://bigdatamaster.tistory.com/m/6

1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석

1 - 고객 프로파일링(Customer Profiling) - 1 개요 :데이터 분석 안녕하세요, 주제는 고객 프로파일링 입니다. 특히, 고객 Communication 측면에서의 프로파일일에 대해서 이야기해 보겠습니다. 고객은 두

bigdatamaster.tistory.com

'인공지능-기계학습' 카테고리의 다른 글

인공지능 이야기(간단 역사와 연구분류) (0)	2022.02.20
Machine Learning Engineer Interview Questions: Machine Learning-Related Questions (0)	2021.11.06
인공지능 기계학습 용어 상식 - 지도학습/비지도학습/강화학습 (0)	2021.07.04
[연재] 고객분석 2 - 워드 클라우드를 이용한 고객 성향 분석 및 판단 (0)	2021.06.12
[연재] 고객분석 1- 고객 구매 행동 모델 및 성격유형 (0)	2021.06.12

PREV 1 NEXT

The Yellow Lion King 데이터와 함께 살아가기