반응형

본 내용은 아래의 링크 내용을 번역한 내용 임을 밝힘니다.
The Best Open Source Chatbot Platforms in 2021

최고의 오픈소스 챗봇을 찾고 계신가요? 이글에서 그들이 정한 기능을 가지고 Top8개의 챗봇을 찾을 수 있습니다. 들어가 보시지요.

오픈소스는 인터넷 없이는 불가능한 초월적인 단계들 중에 하나이다. 이것은 "Nyan Cat은 문화적 혁명이다" 라는 문구와 비슷하다.
(Nyan Cat : 미국에서 만들어진 캐릭터 관련 밈. 몸통이 팝 타르트로 되어있는 회색 고양이가 우주에서 무지개를 그리며 날아다니는 GIF 이미지다.) 엄청인기 있었던 것 같음)
오픈소스 소프트웨어는 오랫동안 우리에게 정말 보석과 같은 것을 주어왔습니다.
모질라의 파이어폭스, 리눅스의 워드프레스, VLC, Apache, LaTex 그리고 우분투(Ubuntu), 이런 것들은 그저 눈에 띄는 몇개 중에 하나입니다.

처음에 언급한 것처럼 챗봇은 최근에 가장 우세한 기술 혁명중 하나입니다.
그리고 당연히 챗봇은 오픈소스 프레임웍의 영향을 받아왔습니다.
솔루션 제공자는 마이크로소프트와 같은 거대 기업으로부터 깃허브의 영웅인 개인 개발자까지 다양합니다.

그래서 이번 글에서는
A. 오픈소스 챗봇은 무엇인가
B. 2021년에 최고의 오픈소스 챗봇에는 어떤것이 있는가
C. 시장에서 오픈소스가 아닌 것들과의 차이를 만드는 것은 무엇인가
에 대해서 이야기 하겠습니다.

오픈소스 챗봇은 무엇인가

챗봇은 "특히 인터넷을 통해, 사람과 대화하는 것을 흉내내기 위해 설계된 프로그램"이 라고 정의 됩니다.
아마 당신은 살면서 당연하게도 이러한 많은 컴퓨터 프로그램들과 상호작용하고 보아왔을 것 입니다.
아마 당신은 챗봇을 이용해서 피자를 주문해봤을 수도 있고, 아니면 화장품을 사는 것에 도움을 받기위해 챗봇을 사용했을 수도 있습니다.
어쩌면 심지어 당신은 이러한 챗보중에 하나와 심리치료 시간을 가져왔을 수도 있습니다.(Stanford Woebot)
상상할 수 있는 거의 모든 사용 방법에 해당하는 챗봇이 있고, 대부분은 아래와 같이 둘중 하나의 방법으로 만들어졌습니다.
1. 최고 수준의 플랫폼을 사용하거나
2. 챗봇을 사용할 회사에 의해 독립적으로 만들어 졌습니다.
그래서 인도에서 가장큰 커머스 중에 하나인 Nykaa는 더 좋고, 보다 효율적인 방법으로 그들의 고객에게 서비스 하기 위해 고객 지원 챗봇을 사용합니다.
그럼에도 불구하고 세번째 방법이 있는데 이것이 바로 오픈소스 챗봇을 사용하는 것입니다.
오픈소스 챗봇은 현대의 웹 어플리케이션과 매우 유사합니다.
오픈소스 챗봇은 인터넷에서 이용되고, 데이터베이스와 메시지를 보내고 받기위한 API를 이용하고, 파일을 읽고 쓰고, 보통의 일들을 처리합니다.
오픈소스 봇들은 대게 아래와 같은 몇 개의 핵심 요소들로 구성됩니다.

  • 웹 서버, 대부분은 인터넷에서 사용가능한 웹서버
  • 봇을 개발하기위해 인터페이스를 제공하는 툴과 봇 빌더 SDK
  • 지능적인 알고리즘 서비스
  • 저장 서비스

 

2021년에 최고의 오픈소스 챗봇에는 어떤 것이 있는가

1. 마이크로소프트 봇 프레임웍(Microsoft Bot Framework).

아마도 비즈니스에서 가장 많이 사용되는 툴중에 하나인 마이크로소프트의 봇 프레임웍(MBF)은 당신이 필요한 모든 것을 가지고 있습니다.
사실, 마인드브라우저의 연구에 따르면 비즈니스의 41%이상이 MBF를 산업의 대안으로 선호합니다.
SMS, Skype, Slack, Email, Office 365, Twittter, Telegram 등은 MBF가 제공하는 여러 플랫폼중에 그저 일부입니다.
이 프레임웍은 두가지로 구성되는데, 즉, 봇 빌더 SDK루이스(LUIS)라고 불리우는 그들의 NLU시스템으로 구성됩니다.
볼빌더SDK는 .NET과 Node.js를 지원 합니다. 그리고 자동번역기능을 가지고 있는 루이스는 30개 이상의 언어를 지원합니다.
마이크로소프트의 넓은 리소스 지원 때문에 당신은 거의 모든 대화 유형을 자동화 할 수 있습니다.
당신은 루이스를 이용해서 자연어 이해를 이용할 수 있고, 보이스 봇인 코타나(Cortana), 그리고 검색 API인 Bing을 이용할 수 있습니다.
MBF는 이러한 이유로 인기 많은 툴입니다. 개발자들이 더 빠르고, 더 좋은 봇을 만들수있게 도와주는 탬플릿과 예시를 가지고 있습니다.
이것은 또한 비즈니스가 옵니 채널적인 접근을 취하려할 때 이상적 입니다.

2. Rasa Stack

라사 스텍은 엄청난 성장을 보여준 플랫폼 입니다. 단 2년만에 라사가 30만회 이상 다운로드 됬습니다. 이것은 거의 매1분마다 다운로드 된 것 입니다.
라사 스택은 오픈소스 기계학습 툴의 모음입니다. 개발자들은 이러한 툴들을 이용햐서 챗봇과 어시스턴트를 만들 수 잇습니다.
라사 스택은 두가지의 콤포넌트를 가지고 있는데 이들 각각은 독립적입니다. 바로 'Core'와 'NLU' 입니다.
NLU는 사전에 정의된 의도에 기반하여 사용자의 메시지를 이해 합니다. 기계학습으로 만들어진 Core는 (이번 메시지 이후) 그 다음에 무엇이 일어날지를 결정합니다.
라사는 독립적인 서비스 입니다. 즉, 데이터를 주입하거나 받기 위한 제 3의 API를 사용할 필요가 없습니다. 그냥 온프레미스 서버나 프라이빗 클라우드에 배포할 수 있습니다.
이것은 확장할 수 있는 자연어 대화와 유연하게 제공할 수 있게 제품화가 준비된 유일한 플랫폼 입니다.

3. Botpress

봇프레스는 스스로를 오픈소스 봇빌딩 플랫폼에 있어는 '챗봇의 워드프레스'라면서 판매 합니다. 이것은 모듈화된 청사진을 가지고 개발 합니다. 당신은 조각들을 떼어내가나 코드 프레임에 있는 새로운 조각을 붙일 수 있습니다.
봇프레스는 3단계 설치 절차를 운영합니다. 개발자가 봇 빌딩을 시작하고, 선호하는 플랫폼에 그 봇을 배포하고 그리고 접근을 넘겨주고나면 이것은 관리 될 수 있습니다.
개발자 친화적인 환경을 사용하는 볼 프레스는 직관적인 대시보드를 가지고 있고, 유연한 기술에 의해 구동됩니다. 그리고 이것은 몇 개의 미리 설치된 컴포넌트들이 제공됩니다.

  • NLU 엔진
  • 관리자 대시보드
  • 시각적 흐름 작성도구
  • 대화 에뮬레이터 / 디버거
  • 여러 메세징 채널 지원

라사와 마찬가지로 봇프레스는 온프레미스에서 운영되기 때문에 들어오고 나가는 데이터에 대한 모든 제어를 할 수 있습니다.

4. Ana.Chat

Ana 는 세상에서 최초의 오픈 소스 챗봇인 것에 대해 스스로 자부심을 느낍니다.
Ana는 개인적이거나 상업적인 용도로도 무료이기 때문에 당신의 챗봇 개발 기간을 줄일 수 있습니다.
Ana는 Ana Studio, Server, Simulator, 그리고 SDK와 같은 내장된 서비스들이 묶음으로 제공됩니다.
이 Studio를 이용해서 텍스트를 만들고 수정하고, 시각적인 입력 항목과 버튼을 만들 수 있습니다.
시뮬레이터를 이용하면 화폐 표시와 같은 기능을 가지고 봇 사용 경험을 제어할 수 있습니다.
서버로는 확장에 대한 걱정없이 당신의 챗봇을 플랫폼에 배포할 수 있도록 합니다.
그리고 SDK로는 몇분 안에 당신의 엡을 Ana와 통합 할 수 있게 합니다.

5. OpenDialog

OpenDialog는 오픈소스 챗봇 프레임웤 중에서 가장 인기있는 것중에 하나입니다. 설비가 완비된 툴킷은 큰 노력없이 설계, 개발 그리고 배포를 할 수 있게 합니다.
GreenShoop Labs는 2018년에 개발을 쉽게 만드는 사용자 중심의 화면을 새롭게 만들면서 이 프레임웤을 만들었습니다. 이것은 훌륭한 대화 엔진과 처음 사용하는 사용자를 주눅들게 만들지 않는 대화 형태에서의 유연성을 하나로 합쳤습니다.
OpenDialog 실시간 음성-문자 변환 처리를 실행 할 수 있는 능력을 자랑합니다. 이것은 N-best/word graph 결과물을 제공하는 것 뿐만 아니라 하나의 서버 유닛으로 작동할 수 있습니다.
이 프레임웍의 USP는 당신이 어떠한 코딩 경험도 필요 없이 완전히 발달된 대화 에이전트를 만들 수 있게 합니다.

6. Tock

NLP를 근본적으로 지원하는 오픈소스 챗봇 개발 프레임웤을 원한다면 Tock은 또 다른 최고의 선택입니다. 이것은 3rd party APIs가 필요없고 독립적으로 동작할 수 있습니다. 그럼에도 불구하고, 사용자가 어떤 컴포넌트를 대화 에이전트에 집어 넣어야 하는지 고르는 것이 얼마나 쉬운지를 고려해보면 통합은 문제될 것이 없습니다.

7. DeepPavlov

DeepPavlov는 TensorFlow, Keras, 그리고 PyTorch 를 기반으로하는 인기있는 오픈소스 챗봇 개발 프레임웍이다 이러한 기반 프레임웍은 개발자들이 다기능 어시스턴트와 같이 파워플한 대화 에이전트를 개발하기 위해 필요한 유연한 도구를 제공합니다.
이 프레임웤은 NER, Q&A 그리고 다른 복잡한 NLP처리를 위해 사용되는 BERT 와 같은 최신의 딥러닝 모델과 호환됩니다.
DeepPavlov의 중요한 기능중 하나는 얼마나 쉽게 이것이 배포될 수 있는가 입니다.(쉽게 배포됩니다) 이러한 기능들은 Nvidia NGC와 Docker Hub에 있는 컨테이너에서 호스팅됩니다.

8. Wit.ai

개발자들은 개인용이거나 상업용 대화 에이전트를 만드는데 이 오픈소스 챗봇 개발 프레임웤을 사용할 수 있습니다.
이것은 페이스북이 2015년에 인수했습니다. Wit.ai 는 (특히 페이스북 메신저와 같은) 메세징 서비스와 쉽게 연동할 수 있는 오픈소스 챗봇을 만들기위해서 필요한 사용자 친화적인 SDK를 제공합니다.
Wit.ai의 NLP 엔진은 IBM, Microsoft, Amazon과 같은 경쟁사의 엔진을 능가합니다.

Wit.ai은 오늘날 가장 포괄적인 오픈 소스 챗봇 개발 프레임워크 중 하나임에 틀림없습니다. 이것의 SDK는 파이썬, NodeJS, 그리고 iOS와 같은 언어로 제공되기 때문에 넓은 범위의 개발자들에게 이상적입니다. Wit.ai는 웹사이트, 앱, 페이스북 메신저, 슬랙, 웨어러블 기술 및 자동화에 쉽게 연동 됩니다.
 

 

What are the key features of open-source chatbots?

오픈소스 챗봇의 주요 기능은 무엇인가?
오픈소스 챗봇 개발 프레임웤은 약간의 코딩 방법을 알고있는 누구나가 그들의 웹페이지를 위해서 그들이 직접 NLP기능이 있는 챗봇을 만들수 있게 합니다. 오픈소스 챗봇이 제공하는 주요 특징을 알아보겠습니다.. 이를 통해서 오픈소스챗봇을 즉시 적용할 수 있는지 아니지를 당신이 선택할 수 있습니다.

1. Customisability
오픈소스 챗봇은 당신의 대화 에이전트에 들어갈 각각의 컴포넌트들을 원하는대로 수정할 수 있게 합니다. 당신은 사용하기를 원하는 메시지 템플릿으로부터 NLP 엔진까지 그리고 당신의 챗봇과 연동하기위한 API까지 모든 것을 선택할 수 있습니다. 유연성은 그들의 사업을 위해서 오픈소스 챗봇 구축을 고려하는 주된 이유중 하나입니다.
2. 24/7 availability
당신은 동시에 다양한 메세징 플랫폼에서 24시간 가능한 당신의 챗봇을 만들 수 있습니다. 연중무휴의 사용성과 무정지 서비스는 당신의 고객지원 운영에 대한 지원을 도울 수 있고 당신의 지원 인력이 더 효율적으로 일하도록 도울 수 있습니다. 챗봇 그 자체로도 대부분의 질의에 응답할 수 잇습니다. 이러한 챗봇은 사용자와 최접점에 있습니다. 즉, 봇에 의해서 해결되지 못한 모든 요청은 처리할 수 있는 사람에게 전달 됩니다.
3. Choice of Natural Language Processing engine
당신의 웹페이지를 위해서 맞춤 챗봇을 개발할때, 알맞은 NLP엔진을 선택하는 것은 필수적입니다. 오픈소스챗봇으로는 당신의 선택에 따라 NLP엔진을 선택하는것이 자유롭고, 어떤 엔진이 그들에게 최고의 성과를 내는지 보고 싶은 이들에게 매우 적합합니다.

4. Data privacy

비즈니스가 당신의 웹사이트에서 데이터 기반 기술을 사용함에 따라서, 사용자 데이터를 보호하는 보안 서비스를 사용하는 것과 사용자 데이터를 위험에 빠트리는 빈틈을 없게 하는것에 관심이 있습니다. 오픈소스챗봇을 가지고 당신은 데이터가 어떻게 처리되고 사용되는지에 대한 완벽한 통제를 갖습니다. 이것은 당신이 사용자 데이터를 안전하게 보호하고 있다는 편안한 마음을 가지게 만들면서도 동시에 챗봇이 고객을 돕게 만듭니다.

What makes them different from non-open-source options on the market?

모든 오픈소스 기술의 가장큰 단점중 하나는 학습곡선이 가파르다는 것 입니다.(배우기 어렵다)
일반 사용자들에게 있어서 우분투는 윈도우처럼 사용자 친화적이거나, 직관적이거나 쉽지 않습니다.
오픈소스 커뮤니티에 개발자가 많고 디자인에 집중이 없다는 것은 놀라운 일이 아니다. 이것은 비 개발자 사용자들은 오픈소스 기술에 대해 자주 힘들어 한다는 의미입니다. 오픈소스 기술은 또한 아주 많은 지원을 제공하지 않습니다. 그래서 만약 당신이 문제를 가지고 있다면 단지 약간의 문서들을 가지고 당신이 직접 수정해야만 한다는 것이 기회입니다.
오픈소스 소프트웨어는 또한 거의 무료입니다. 독립 서비스를 위해서 당신은 지불할 필요가 없지만, 당신이 내야하는 다양한 비용들이 있습니다.
당신이 서버, 훈련, 하드웨어, 그리고 개발 비용을 고려하지 않았다면 이 비용들이 합쳐져야 합니다.
그럼에도 불구하고, 이러한 것들이 당신을 단념시키게 하지 마세요.
설립된 회사로부터 많은 합법적인 솔루션들도 같은 문제들에 대해서 다양한 심도에서 어려움을 격고 있습니다.
당신이 챗봇을 만드는데 도움을 주는 쉽고, 싸고, 더 도움이 되는 툴을 좋아한다면 다양한 옵션들이 있습니다.
회사들은 자주 당신이 무료로 챗봇을 만들 수 있도록 허락해 줍니다. 아래와 같은 방법과 같이 챗봇 만드는 것을 시작할 수 있습니다.
여기


(이상한 내용의 번역이 있으면 알려주시고, 질문을 남겨주세요..)

감사합니다.

반응형
반응형

머신러닝 엔지니어 인터뷰

 

Most of the questions below from https://brainstation.io/career-guides/machine-learning-engineer-interview-questions

 

Machine Learning Engineer Interview Questions | BrainStation®

Machine Learning Engineer interviews differ at every company. Some focus mostly on technical questions, others are interested in how you would fit into their team.

brainstation.io

 

 

 

What is the difference between supervised learning and unsupervised learning?

The biggest difference is that unsupervised learning does not require explicitly labeled data, while supervised learning does – before you can do a classification, you must label the data to train the model to classify data into the correct groups.

 

    • What are the different types of machine learning?
      • Supervised Learning, Unsupervised Learning, Reinforcement Learning
    • What is deep learning, and how does it contrast with other machine learning algorithms?
    • What are the differences between machine learning and deep learning?
    • What is the difference between artificial intelligence and machine learning?
      • Deep learning is a type of machine learning, which is a subset of artificial intelligence.
    • Explain the confusion matrix with respect to machine learning algorithms.
      • A Confusion matrix is an N x N matrix used for evaluating the performance of a classification model, where N is the number of target classes.
      • The matrix compares the actual target values with those predicted by the machine learning model.
      • the True Positive is the number of  ------
      • This gives us a holistic view of how well our classification model is performing and what kinds of errors it is making.
      • , False positive and that you can calculate things such as Precision and Recall from it.
    • What’s the trade-off between bias and variance?
      • Bias is the simplifying assumptions made by the model to make the target function easier to approximate.
      • Variance is the amount that the estimate of the target function will change given different training data.
      • Trade-off is tension between the error introduced by the bias and the variance.
      •  
      • wikipedia 

통계학 기계 학습 분야에서 말하는 편향-분산 트레이드오프(Bias-variance tradeoff) (또는 딜레마(dilemma))는 지도 학습 알고리즘이 트레이닝 셋의 범위를 넘어 지나치게 일반화 하는 것을 예방하기 위해 두 종류의 오차(편향, 분산)를 최소화 할 때 겪는 문제이다.

        • 편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차이다. 높은 편향값은 알고리즘이 데이터의 특징과 결과물과의 적절한 관계를 놓치게 만드는 과소적합(underfitting) 문제를 발생 시킨다.
        • 분산은 트레이닝 셋에 내재된 작은 변동(fluctuation) 때문에 발생하는 오차이다. 높은 분산값은 큰 노이즈까지 모델링에 포함시키는 과적합(overfitting) 문제를 발생 시킨다.

편향-분산 분해는 학습 알고리즘의 기대 오차를 분석하는 한 가지 방법으로, 오차를 편향, 분산, 그리고 데이터 자체가 내재하고 있어 어떤 모델링으로도 줄일수 없는 오류의 합으로 본다. 편향-분산 트레이드 오프는 분류(classification), 회귀분석[1][2], 그리고 구조화된 출력 학습(structed output learning) 등 모든 형태의 지도 학습에 응용된다. 또한 사람의 학습에서 직관적 판단 오류(heuristics)의 효과성을 설명하기 위해 언급되기도 한다.

 

    • Explain the difference between L1 and L2 regularization.
      • The main intuitive difference between the L1 and L2 regularization is that L1 regularization tries to estimate the median of the data  / while the L2 regularization tries to estimate the mean of the data to avoid overfitting.
      • The model performs accurately on training data but fails to perform well on test data and also produces high error due to several factors such as collinearity, bias-variance impact and over modeling on train data.
      • For example, when the model learns signals as well as noises in the training data but couldn’t perform appropriately on new data upon which the model wasn’t trained, the condition/problem of overfitting takes place. 
      • Overfitting simply states that there is low error with respect to training dataset, and high error with respect to test datasets. 
      • Various methods can be adopted, for avoiding overfitting of models on training data, such as cross-validation sampling, reducing number of features, pruning, regularization and many more.
  • What’s your favorite algorithm, and can you explain it to me in less than a minute?
    • My favorite algorithm is Naive Bayes classification algorithm based on Bayes’ Theorem with an assumption of independence among predictors. In simple terms, a Naive Bayes classifier assumes that the presence of a particular feature in a class is unrelated to the presence of any other feature.
  • How is KNN different from k-means clustering?
    • K-means clustering represents an unsupervised algorithm, mainly used for clustering, while KNN is a supervised learning algorithm used for classification.
  • What is cross validation and what are different methods of using it?
    • Cross-validation, sometimes called rotation estimation or out-of-sample testing to assess how the results of a statistical analysis will generalize to an independent data set.
    • Cross-validation is a resampling method that uses different portions of the data to test and train a model on different iterations.
  • Explain how a ROC curve works.
    • The ROC curve shows the trade-off between sensitivity (or TPR) and specificity (1 – FPR). Classifiers that give curves closer to the top-left corner indicate a better performance. As a baseline, a random classifier is expected to give points lying along the diagonal (FPR = TPR). The closer the curve comes to the 45-degree diagonal of the ROC space, the less accurate the test.
    • The receiving operating characteristic is a measure of classifier performance. Using the proportion of positive data points that are correctly considered as positive and the proportion of negative data points that are mistakenly considered as positive.
  • What’s the difference between probability and likelihood?
    • Probability is used to finding the chance of occurrence of a particular situation, whereas Likelihood is used to generally maximizing the chances of a particular situation to occur.
  • What’s the difference between a generative and discriminative model?
    • In simple words, a discriminative model makes predictions on the unseen data based on conditional probability and can be used either for classification or regression problem statements.    On the contrary, a generative model focuses on the distribution of a dataset to return a probability for a given example.
  • How is a decision tree pruned?
  • How can you choose a classifier based on a training set size?
    • If the training set is small, high bias / low variance models (e.g. Naive Bayes) tend to perform better because they are less likely to overfit.
    • If the training set is large, low bias / high variance models (e.g. Logistic Regression) tend to perform better because they can reflect more complex relationships.
  • What methods for dimensionality reduction do you know and how do they compare with each other?
    • PCA(Principal Component Analysis) and High Correlation Filter are my favorite methods for dimensionality reduction.
    • PCA is one of the most common feature selection method. 
    • PCA is a technique which helps us in extracting a new set of variables from an existing large set of variables. These newly extracted variables are called Principal Components. 
    • A principal component is a linear combination of the original variables
    • Principal components are extracted in such a way that the first principal component explains maximum variance in the dataset
    • The second principal component tries to explain the remaining variance in the dataset and is uncorrelated to the first principal component
    • The third principal component tries to explain the variance which is not explained by the first two principal components and so on
    • High Correlation Filter
    • We can calculate the correlation between independent numerical variables that are numerical in nature. If the correlation coefficient crosses a certain threshold value, we can drop one of the variables
  • Define precision and recall.
  • What’s a Fourier transform?
  • What’s the difference between Type I and Type II error?
    •  
  • When should you use classification over regression?
    •  
  • How would you evaluate a logistic regression model?
    •  
  • What is Bayes’ Theorem? How is it useful in a machine learning context?
    • Bayes theorem provides a way to calculate the probability of a hypothesis based on its prior probability, the probabilities of observing various data given the hypothesis, and the observed data itself.
  • Describe a hash table.
    • Hash Table is a data structure which stores data in an associative manner. In a hash table, data is stored in an array format, where each data value has its own unique index value. Access of data becomes very fast if we know the index of the desired data.

 

 

 

반응형
반응형

Naive Bayers Classification 나이브 베이지안 분류에는 크게 3가지로 가우시안, 다항분포, 베르누이(이항분포)가 있다.
이중에서 분류의 목적과 데이터 유형에 따라서 사용할 방법을 선택할 수 있다.
이번에는 다항분포 나이브 베이지안 분류에 대해서 알아보자.
비연속적인 데이터 값에 대해서 여러가지의 분류중에서 선택/분류하는 방법이다.
가장 많이 알려진 예시가 바로 스팸 메일 분류다. 즉, 메일의 제목과 내용을 보고 이 메일이 스팸 메일일지 아니면 정상적인 메일일지를 분류하는 알고리즘에 사용할 수 있다. 이러한 방법은 기계학습 방법중에서 지도학습(Supervised Learning)에 해당한다.
한번 생각해보자. 아래의 내용은 메일에 들어있는 내용을 단어로 표시한 것이다. 1번과 2번의 메일 중 어느 것이 스팸 메일 일까?

1번: 광고 출시 기념 할인 대상 선물 대박 핸드폰 
2번: 회의 사장 회사 오전 대표님 연락 메일 예약 출시


당신은 몇번을 선택했나? 왜 그렇게 선택했나?
내 생각에는 1번이 스팸 메일 일 꺼라고 선택했는데, 이유는 1번에 나오는 단어들이 스팸 메일에서 자주 보이는 단어이기 때문이다.
이처럼 각 단어가 스팸 메일에서 나타나는 확률을 계산하고 모든 단어의 확률을 더해서 하나의 메일이 스팸 확률을 계산하는 방법이 바로 다항분포 베이지안 분류 방법이다.


다항분포 나이브 베이지안 알고리즘의 공식을 이해하기 쉽게 풀어서 상세하게 설명하겠다.
(아래 위키 페이지의 내용을 기반으로 설명)

 

나이브 베이즈 분류 - 위키백과, 우리 모두의 백과사전

기계 학습분야에서, '나이브 베이즈 분류(Naïve Bayes Classification)는 특성들 사이의 독립을 가정하는 베이즈 정리를 적용한 확률 분류기의 일종으로 1950 년대 이후 광범위하게 연구되고 있다. 통계

ko.wikipedia.org

 


먼저 간단한 공식 읽는 방법을 이해해 보자

[공식1] C라는 클래스 조건에서 i번째 단어(w)가 나타날 확률

p 는 확률을 말하고, w는 단어, i는 순서를 표시하고, C는 클래스를 말한다. 즉 풀어서 말하면 C라는 클래스에서 단어 wi가 나타날 확률이다. 실제 계산하는 방법은, 모든 C클래스에 속하는 단어의 출현 횟수 중에서 wi가 얼마나 나타났는지 계산하면 된다.(짧게 말하면, C클래스에 나타난 wi 출현 건수 / C클래스에 나타난 모든 단어 출현수 = wi 가 C클래스라는 조건에서 나타날 확률)
예를 들면, p(광고 | 스팸메일) 의 의미는
스팸메일이라는 클래스 조건에서 광고라는 단어가 나올 확률을 말한다.

그래서 우리는 C 클래스가 주어졌을때 D라는 문서가 나타날 확률을 아래와 같이 공식으로 만들 수 있다.

[공식2]

이 공식[공식2]을 풀어서 설명하면
C클래스(스팸메일)에 대하여 D(메일)이 속할 확률은 = C클래스(스팸메일)라는 조건에서 D의 각 단어(wi)가 나타날 확률을 모두 구하고 이 확률 들을 누적곱한 것
이다.
이처럼 [공식2]를 말하는 이유는 계산 할 수 있는 값 이기 때문이다. 즉, 스팸메일로 분류된 메일들의 내용을 통해서 스팸메일에 할당된 문서들의 워드 별로 스팸 메일에서의 출현 확률을 계산해 낼 수 있기 때문이다.

그런데 우리가 원하는 확률 값은 (새로운 메일 문서)D가 주어졌을때 C(스팸)일 확률이다.
수식으로는

[공식[3]

이다

[공식2] 에서와 같이 만들 수 있지만 문제는 D라는 조건에서의 C클래스에 모든 단어가 출현할 확률을 계산할 수 없다. 왜냐하면 우리는 어떤 D가 들어올지 모르기 때문이다. 모든 단어 조합에 해당하는 D를 만들면 해당 문서가 C클래스에 속할 확률을 알 수 있겠지만 모든 단어 조합의 문서를 만든다는 말은 결국 무한대에 가깝기 때문에 만들 수 없다.
그런데 다행히도 우리는 아래의 조건부 확률 공식을 이용해서 공식을 바꿀 수 있다.

[공식4] 조건부 확률

[공식4]를 이용하여 [공식3]을 아래와 같이 바꿀 수 있다.

[공식5]

이와 같은 방법으로 반대도 알 수 있다.

[공식6]


[공식6]을 이용해서 공식 5의 오른 쪽 분자에 있는 p(D ∩ C)를 p(C) p(D|C) 로 아래와 같이 바꿀 수 있다.

우리는 이공식을 공식2에 의해서 아래와 같이 바꿀 수 있다.

그런데 우리는 아직도 p(D)를 계산할 수가 없고
이렇게 계산해서 나온다고해도 그냥 클래스에 속할 확률인 값만 나온다. 예를 들면, 스팸 메일일 확률 88.833%, 일반 메일일 확률 88.799%. 이렇게 나와서 판단 하기 어렵다.
그래서 간단하게 스펨과 일반 두가지의 클래스만 있다고 가정하고 위 공식의 C를 스팸(S)과 일반(-S)로 바꾸면 아래와 같다.


결국 스팸 가능성이 더 큰지, 아니면 일반일 가능성이 더 큰지를 비교하면 되므로 계산해서 나온 두 값을 비율로 만들어서 어느 것이 더 높은지 판단 할 수 있다. 이를 위해 위의 공식 2개를 비율로 만들면 아래와 같다. 같은 항의 값으로 나눈 것이다.

이것을 조금 더 보기 좋게 정리하면 아래와 같다.

이렇게 계산하면 두 클래스간의 유서도비(우도비)율이 나오는데, 문제는 클래스에 속한 단어의 숫자가 일치하지 않고 발생 차이가 많이 날 수 있기 때문에 (예: 스팸단어 1,000개, 일반단어 100,000개) 로그를 취해서 크기/스케일을 맞추어 준다.


이렇게 해서 나온 값이 크면 스팸일 가능성이 높은 것이고 낮으면 일반 메일일 가능성이 높은 것이다. 이러한 구분/분류를 위해 테스트 데이터를 통해 적당한 기준값(Threshold)을 설정해 준다.


자, 이론도 알았으니 다음에는 이러한 나이브 베이지안 알고리즘을 이용하여 분류기를 직접 만들어 보자.











반응형
반응형

인공지능

쉽게말하면, 말 그대로 인공적인 지능을 말한다. 지능이란 인간이 지니는 지적인 능력으로, 합리적으로 생각하고 처리하는 능력이라고 할 수 있다. 인간이 가지는 특징인 지능을 인공적으로 만드는 것이 인공지능이다. 실제로 인공지능은 컴퓨터 프로그램이나 시스템으로 구현되기 때문이 이렇게 구현된 것을 인공지능이라고 한다.
https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5

 

인공지능 - 위키백과, 우리 모두의 백과사전

인공지능 또는 AI는 인간의 학습능력, 추론능력, 지각능력, 그외에 인공적으로 구현한 컴퓨터 프로그램 또는 이를 포함한 컴퓨터 시스템이다. 하나의 인프라 기술이기도 하다.[1][2] 인간을 포함

ko.wikipedia.org

그런데 보통 일반인에게 인공지능이 무엇인가? 라고 질문하면 로봇을 떠올리기 쉽다. 그러나 로봇은 일련의 작업을 수행하는 기계적 장치를 말한다. 즉, 쉽게 말하면 하드웨어인 것이다. https://ko.wikipedia.org/wiki/%EB%A1%9C%EB%B4%87

 

로봇 - 위키백과, 우리 모두의 백과사전

위키백과의 봇에 대해서는 위키백과:봇 문서를 참조하십시오. 로봇(문화어: 로보트, 영어: robot)은 인간과 유사한 모습과 기능을 가진 기계 또는 한 개의 컴퓨터 프로그램으로 작동할 수 있고(prog

ko.wikipedia.org

따라서 인공지능은 소프트웨어라고 할 수 있다. 이처럼 하드위어와 소프트웨어가 합쳐지면 영화에서나 볼법한 정말 사람 같은 로봇이 만들어질 수 있겠다.
위키에서는 컴퓨터 프로그램으로 정의한다.
https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5

 

인공지능 - 위키백과, 우리 모두의 백과사전

인공지능 또는 AI는 인간의 학습능력, 추론능력, 지각능력, 그외에 인공적으로 구현한 컴퓨터 프로그램 또는 이를 포함한 컴퓨터 시스템이다. 하나의 인프라 기술이기도 하다.[1][2] 인간을 포함

ko.wikipedia.org

그런데 정의가 너무 광범위하다. 인공지능 = 인공적으로 만든 지능 = 컴퓨터 프로그램
그러서 인공지능에 대해서 조금 더 자세히 알아보자

인공지능에 포함되는 분야 중에 하나가 기계학습(Machine Learning, 머신러닝) 이다. 지능 중에서 학습하는 능력을 기계가 갖게 만드는 알고리즘 영역이라고 할 수 있다.
https://ko.wikipedia.org/wiki/%EA%B8%B0%EA%B3%84_%ED%95%99%EC%8A%B5

 

기계 학습 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 기계 학습(機械學習) 또는 머신 러닝(영어: machine learning)은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이다.[1] 인공지능의 한 분야로 간주된다. 컴

ko.wikipedia.org

기계학습이란 용어에 대한 정의는 1959년에 아서 사무엘이 "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"라고 정의하였다. 그리고 1998년에 카네기 멜론 대학의 톰 마이클 교수는 아래와 같이 더 구체적으로 정의하였다.

“A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”

  만약에 P에 의해서 측정되는 T라는 작업을 할때 컴퓨터 프로그램의 성능이 경험 E를 통해 증가했다면  컴퓨터 프로그램이 성능 지표 P와 작업 T의 일부 분류 표시를 가지고 경험 E로 부터 배운다 라고 한다.

 

이러한 기계학습은 학습 방법으로 유형을 구분할 수 있다. 지도학습, 비지도학습, 강화학습 이 그것이다.
인공적으로 지능을 만들기 위해서 컴퓨터에게 지능을 만들어 주어야 하는데 이 지능을 만드는 과정/방법을 학습이라고 한 것이다.
이처럼 학습하는 방법을 크게 3가지로 나눈다. 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning).

 

지도학습(Supervised Learning)

어린 아이에게 과일의 이름을 학습시키는 상황을 예로 들어보자. 사과를 알려주기 위해서 사과를 보여주고 "이게 사과야" 라고 알려주는 방법이 지도 학습이다. 말 그대로 대상에게 학습할 내용과 정답을 지도해 주는 방법이다. 세상 모든 일에는 장점과 단점이 있듯이 이것도 있다. 먼저 장점, 쉽다. 아이에게 사과를 학습시키고 나서 다시 사과를 물어보면 곧 잘 대답한다. 가르쳐 주기도 쉽다. 사과를 들고 "이게 사과야" 하면되고 바나나를 들고 "이게 바나나야" 라고 알려주면 된다. 그리고 사과가 많이 없어도 학습시킬 수 있다. 반면에 단점도 있다. 배울때 없었던 것을 물어보면 대답을 잘 못한다. 즉, 미니 사과나 반쯤 먹은 사과를 보여주면 엉뚱한(잘못된) 대답을 할 가능성이 높다.
https://ko.wikipedia.org/wiki/%EC%A7%80%EB%8F%84_%ED%95%99%EC%8A%B5

 

지도 학습 - 위키백과, 우리 모두의 백과사전

 

ko.wikipedia.org

 

비지도학습(Unsupervised Learning)

말그대로 지도하지 않는 학습 방법이다. 위에서 본 것처럼 지도라는 말은 정답을 가르쳐 준다는 의미로 이해할 수 있다. 비지도 학습은 정답을 알려주지 않고 지능을 갖게되는 방법이다. 앞선 어린 아이에게 과일의 이름을 학습시키는 동일한 상황에서 이번에는 여러 개의 사과와 여러 개의 바나나를 보여주는 것이다. 사과 바나나를 모아 놓고 알아서 구분해 보라고 하는 것이다. 구분해 놓은 것을 보고 "이런 것들은 사과라고하고 저런 것들은 바나나라고해"라고 알려주는 방법이다. 즉, 정답을 가르처주지 않고 학습하는 방법이다.  장점, 일일히 시간내서 하나씩 가르쳐줄 필요가 없다. 따라서 학습 자료 준비 시간이 빠르다. 그냥 많은 과일을 보여주면 된다. 그리고 또다른 장점으로는 안 배웠던 사과를 보여줘도 곧 잘 정확하게 대답한다. 사과 하나하나의 특징을 학습한 것이 아니라 사과들의 공통된 특징을 학습했기 때문이다. 단점, 사과와 바나나 등 데이터가 많이 있어야 한다. 안그러면 같은 것 끼리의 특성을 잘 못찾기 때문이다. 그리고 가르치기 어렵다. "여기 사과들을 보렴, 사과는 주로 동그란 모양이고 빨간색이야", 데이터를 통해 배우는 방법으로 정확한 정답이 있는 것은 아니다. (다만, 결과가 사람이 인지하는 정답과 매우 유사하게 나오게 할 수록 사람과 비슷한 인공지능이 되는 것이다.)
https://ko.wikipedia.org/wiki/%EB%B9%84%EC%A7%80%EB%8F%84_%ED%95%99%EC%8A%B5

 

비지도 학습 - 위키백과, 우리 모두의 백과사전

비지도 학습 위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

 

강화학습(Reinforcement Learning)

당근과 채찍을 통해 학습하는 방법이다. 잘하면 당근을 못하면 채찍을 통해 알고리즘 프로그램을 보완하여 지능을 갖게하는 방법이다. 다른 학습 방법과의 다른 점은 데이터 한 경우에 따라서 당근/채찍을 주는 것이 아니라 전체를 최적화 할 수 있는 근사치를 찾는 다는 점에서 다르다. 그리고 가장큰 차이점은 주어진 데이터에서 아직 조사되지 않은 영역을 탐험하는 것과 알고있는 지식 사이의 균형을 고려하면서 최적의 행동계획을 수립한다는 것이다. 강화학습의 예로는 미로를 빠저나가는 로봇을 생각해볼 수 있다. 상/하/좌/우 로 움직일 수 있는 행동중에서 어떤 이동의 움직임을 연속해서 선택해야 미로라는 환경에서 가장 빨리 빠져나갈 수 있는지를 여러번의 학습을 통해 찾아내는 것이다.
https://ko.wikipedia.org/wiki/%EA%B0%95%ED%99%94_%ED%95%99%EC%8A%B5

 

강화 학습 - 위키백과, 우리 모두의 백과사전

강화 학습(Reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화

ko.wikipedia.org

 

기타

다른 방법으로 인간의 여러가지 인지지능 중 시각과 언어 지능을 인공지능으로 구분할 수 있다. 시각인지 분야는 컴퓨터 비전(Computer Vision) 분야로 그리고 언어인지 분야는 자연어 처리(NLP: Natural Language Proecss)분야로 크게 구분한다. 추론과 기억분야가 추가되기도 한다.
https://ko.wikipedia.org/wiki/%EC%9E%90%EC%97%B0%EC%96%B4_%EC%B2%98%EB%A6%AC

 

자연어 처리 - 위키백과, 우리 모두의 백과사전

자연어 처리(自然語處理) 또는 자연 언어 처리(自然言語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 묘사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다.

ko.wikipedia.org


사람의 지능은 여러 상황에 따라서 다양한 방법으로 문제를 해결한다. 그러나 인공지능은 아직 인간 수준의 종합지능을 가지고 있지는 못하다. 물론 단일화되고 규격화된, 그리고 제한된 문제 분야에서는 인간을 뛰어넘는 지능을 보여주기도 한다. 알파고와 이세돌기사의 대결에서 알파고가 승리한 것이 좋은 예시가 되겠다.
이처럼 아직 인공지능은 여러 문제를 동시에 구분하고 처리하는데 낮은 성능(지능)이다. 그러나 학습 방법이나 문제 종류에 따라서 세분화된 분야에서는 딥러닝(Deep Neural Network)의 발달로 높은 지능이 개발/발전되고 있다. 이 때문에 실제로 인공지능이나 기계학습을 활용하는 현업에서는 문제 상황과 확보한 데이터 그리고 목적에 맞게 학습 방법을 선택하는 것이 매우 그리고 더 매우 중요하다. 재료인 데이터의 중요성은 더 말할나위 없이 중요하다.

반응형

+ Recent posts