반응형
통계의 힘 - 니시우치 히로무. 신현호


통계리터러시를 높이기에 좋은 책
통계학과 관련된 전반적인 지식과 이해를 위해 효과적인 책




존 스노 19세기(1832년) 유럽 영국 콜레라 강타   역학 조사  환자와 정상인의 차이점 발견

나이팅게일  사망 병사의 사인이 전쟁에서의 부상이 아니라 병동의 위생문제임을 통계자료로 증명

분석 후 결과에 대한 추가질문 물뇨
1 어떤 요인을 변화 시켜야 이익이 향상될까
2 그런 변화를 일으키는 행동이 실제로 가능 한가
3 그에 따르는 비용이 이익을 상회 할까

피셔 영국 1935연 실험계획법 The design of experiments
우유 홍차가 섞인 5잔의 섞인 순서를  맞출 확률
1/2+1/2+1/2+1/2+1/2= 1/32 = 3.1%
10잔은 1/1024 = 약 0.1%
부인이 잔을 임의로 선택해서 맞추도록 함
임의화 비교 실험

오차도 과학으로 끌어들인 통계

임의화하면 비교하려는 두 그룹의 모든 조건이 거의 평균화됨. 실험 결과가 오차로 보기힘든 차이가 발생 됬다면 
실험 변수 비료로 인한 수확량의 차이가 발생했다고 할 수 있다

일부러 바보 같은 착상을 시도한다
말도 안되는 캠페인을 일부러 실행해 본다
왜냐하면 실험을 통해 적은 비용으로 결과를 알 수 있으므로
조앤페브릭 사 재봉틀 2대 사면 10%할인 테스트

콘티넨털항공사의 지연 불만 대응 방안 테스트
1 공식 사과 편지
2 공식 사과 편지 + 프리미엄 클럽 임시 무료 가입 권
3 무대응

2번 대상고객의 30%가 무료기간 후 정식회원 가입으로 매출 증대

가 임의화가 불가능한 경우   현실
   비용 또는 발생(지진)의 문제로 실험 회수가 적은 경우
나. 허용되지않는 경우    윤리
   통용되는 통계학자의 윤리
   1 임의화에 의해 인위적으로 유해한 경우가 생겨서는 안된다 예 반 사회적 나쁜 것을 검증라려는 것. 담배가 건강에 좋다는 실험을 위한
   2 좋다 나쁘다 처럼  불공평하게 극대극 상황이 벌어질 것을 예상
      빈곤 가정에만 주택임대비용을 지원 ㅡ 이를 활용해서 빈민가 탈출

다. 큰 손해를 보는 경우   감정
      누구는 지원해 주고 누구는 안해주고
      예  아마존의 가격 산정 로직 실험. 같은제품을 누구는100원 누구는 천원


케이스 컨트롤 연구 . 윌리엄 돌 A, 브래드포드 힐
   역학에서 사용 케이스=환자. 컨트롤 = 비교대조
층별해석 = 동일 나이. 성별. 거주지. 직군 별로 비교
피셔의 반론 = 층별 해석을 했다해도 문제가 있다. 임의화를 하는게 더 좋다


코호트 연구 Cohort 집단을 계속적으로 분석
프레이밍 험


t검정. 분산분석. 회귀분석. 다중회귀분석 등을 일반 선형 모델로 발표 1968년 코엔이

일반화 선형 모델  1972년  넬더와 웨더번


변수로 다른 변수의 값을  설명하거나 예측하는 방법.  일정기준으로 돌아가려는 회귀하려는 정도를 찾아내서 설명 예측하는 방법


프랑스 심리학자 비네(1857~1911)가 IQ의 근본이 되는 지능검사 발명


골턴의 회귀분석    부모 자식간 키 비교 분석
회귀모델 고셋

회귀계수 추정치, 신뢰구간, p값


일반화 선형 모델(광의의 회귀분석)을 정리한 표
분석축(설명변수)
두그룹간 비교.  다 그룹간 비교. 연속값으로 비교. 복수의 요인으로 비교
결과값. 연속값. 평균값의 차이를 t검정. 평균값의 차이를 분산 분석. 회귀뷴석. 다중 회귀 분석
          . 있음/없음의 두 값.  집계표의 기술과 카이제곱검정.  로지스틱 회귀


통계학의 특징
1. 실태를 파악하눈 사회 조사법
2. 원인을 규명하는 역학. 생물 통계학
3. 츄상적인것을 측정하려능 심리 통계학
4. 기계적 분류를 위헌 데이터 마이닝
5. 자연언어 처리를 위한 텍스트 마이닝
6. 연역에 관심을 두는 계량 경제학


다인자 지능설 1938년 서스톤
1. 공간 지능
2. 수적 지능
3. 언어적 지능
4. 판단. 반응 속도에 연결되는 지각적 지능
5. 논리적으로 추론하는 츄리적 지능
6. 신속하고 유연하게 말하는 유창성 지눙
7. 암기력응 나타내는 기억 지능

심리학자들은 패스분석을 선호

데이터 마이닝
바스켓 분석 1993년 IBM 라케시 아그라왈
영국 백화점 막스앤스펜서에서 시도
AR

인공신경망, 서포트 벡터 머신, 클러스터 분석


텍스트 마이닝
형태소 분석
엔그램 N-Gram

계량경제학자  = 통계학자보다 상호 작용 항목을 포함한 설명 변수의 선택을 더욱 신중하게 검토. 연역적 접근

귀납은 개별 사례를 모아 일반적인 법칙을 이끌어내려는 방식
연역은 있는 사실이나 가정에 근거해 논리적 추론에 의해 결론을 도출하려는 방법

베이즈 확률 사용 문제 풀기 
진짜동전. 가짜동전 (앞면 80%확율) 사용
어떤동전을 10회 던져서 모두 앞면이 나왔을때 이동전은 진짜일까 가짜일까?  판단방법은? 확률은?

스펨 메일 필터링

전력을 다할 것 인가 최선을 다할 것 인가
통계학을 이용해서 최선의 길을 찾자



반응형

+ Recent posts