반응형

 

스탠포드 머신러닝 강화 15: Lecture 15 - EM Algorithm & Factor Analysis | Stanford CS229: Machine Learning

 

참고로 이번 강의는 후반부에 공식 유도를 설명하는 부분이 있는데 따라가기 힘들었습니다. ㅠㅠ

 

주요내용

  • Recap
  • EM Convergence
  • Gaussian Properties
  • Factor Analysis
  • Gaussian marginals & conditionals
  • EM steps

 

 

지난 시간 내용 Recap

지난 시간에 배운 EM 알고리즘에 대해서 요약합니다. E 단계에서는 Q를 찾고 M 단계에서 P를 최대화하는 theta 세타 를 찾습니다.

 

 

 

 

 

EM Convergence

지난 시간에는 EM의 이론적인 내용을 다루었다면 이번 시간에는 파이썬 같은 프로그래밍 언어에서 어떻게 구현하는지에 대해서 이야기합니다. 먼저 전반적인 절차에 대해서 정리해 봅니다.

 

 

 

아래에서 ...은 위의 내용중 마지막에 있는 공식입니다.  위처럼 최대화 하는 함수를 실행하고 아래 처럼 미분하여 평균 뮤(u)를 수정하면서 이 작업을 반복합니다.

 

 

 

 

Gaussian marginals & conditionals

Gaussian Properties

혼합 가우시안 모델은 카테고리(n)가 작고 관측값(m)이 많이 있을때 상대적으로 잘 동작합니다.

 

그러나 관측값(m)의 수가 카테고리(n)와 비슷하거나 관측값의 수가 카테고리보다 훨씬 작을 땐 성능이 좋지 않습니다.

단일 정규분포 모델에 대해서 알아보겠습니다.

m이 n 보다 많이 작은 경우(n이 큰 경우), 시그마는 Singular/Non-invertable 행렬이 됩니다. 아래 행렬이 Non-invertable 행렬의 예 입니다.

 

이것을 설명하기 위해 그래프를 그려보면 아래와 같습니다.  m과 n이 모두 2일 경우 두 x를 연결하는 아주 앏은 타원의 연결로 표시될 수 있습니다. 좌우로는 무한대에 가깝게 확장되는 모양 입니다. 오른쪽 아래의 점 처럼 조금만 벗어나도 모델의 분포(앏은 타원)에 속하지 못해서 확률은 0이 됩니다.

 

 

 

 

Factor Analysis

위에서 처럼 관측값이 작고 카테고리가 많은 경우에는 가우시안 모델을 이용하면 좋지 않은 성능을 볼 수 있습니다. 그래서 Factor Analysis 같은 방법을 이용하면 좋습니다. Factor Analysis 의 초기 시작은 심리학 실험에서 사용되었습니다. 예를 들면 심리학자가 사람들의 서로 다른 성격 특징을 측정하고자 할때 100개의 질문/특질이 있을 수 있고, 데이터 셋은 30명 정도의 작은 수의 대상자들을 대상으로 하기 쉽습니다. 이러한 경우 표준 가우시안 모델은 잘 작동하지 않습니다. 그러니 다른 대안 들에 대해서 알아보겠습니다.

첫번째 옵션은 시그마를 대각행렬로 제한하는 것입니다.  그런데 이것의 가정은 모든 특성이 서로 상관이 없다는 전제입니다.

 

두번째 옵션은 시그마를 시그마^2으로 제한하는 것입니다. 이렇게 하면 하나의 파라메터에 대해서 하나의 정규분포를 가정하게 됩니다. 완전한 원형의 분포를 말합니다.

 

 

여담으로 많은 빅 소프트웨어 인공지능 회사들도 작은 데이터셋 문제를 격는다고 합니다. 특히, 의료와 같은 경우에는 환자나 병에 대한 많은 데이터 셋을 활용할 수 없는 경우가 많다고 합니다.

 

 

 

 

예1: (Dimension이 1인) 1차원 예시 입니다. 표본수가 m=7이고, 카테고리가 n=2입니다.

 

 

(dimension이 2인) 2차원에 예시를 들어보겠습니다. 표본수 m은 5이고 분포/카테고리는 n=2 인 데이터 입니다.

 

2차원인 화이트보드에서 때어내서 3차원 공간으로 확장하면 아래와 같습니다. ㅋ

바로 이 3차원 가우시안 분포를 중심으로 실제 값들을 표시해보면 아래 그림에서 빨간색 X와 같이 됩니다. 분포의 중심인 검정색 X 근처 어딘가에 빨간색 X가 표시되게 되는 것이지요.(엔드류 교수님의 창의적인 시각자료 활용에 놀랐습니다.ㅋ)

 

 

 

 

 

 

 

 

EM Steps

이후 부터 끝까지는 EM 방법을 이끌어내는 공식을 유도하는 내용입니다.

 

 

 

 

 

E-step

 

 

 

M-step

 

 

 

 

아래는 강의 동영상 링크 입니다.

 

https://www.youtube.com/watch?v=tw6cmL5STuY&list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU&index=15 

 

반응형

+ Recent posts