In Statistics We Trust
-
Concept of Hidden Markov Model 2
앞선 포스팅에서는 HMM 모델에서 추정하게 될 항목들을 계산하기 위해서 EM 알고리즘을 활용하게 되며, E Step에서 정의한 notation을 계산하는 방법에 대해 추가적인 논의가 필요하다고 소개하였다. \(\gamma,\xi\)에 대한 정의를 했는데 이를 계산하기 위한 대표적인 방법으로는 foward-backward 알고리즘이란 것이 있다. \(\gamma, \xi\) 모두 latent variable \(\mathbf{z}\)에 대한 분포를 표현하는 식이므로 모든 n에 대한...
-
Concept of Hidden Markov Model
데이터에 대한 분포 가정을 하는 과정에서 우리는 빈번하게 독립적이고 동일한 분포(iid condition)에서 생성된 데이터 집합에 초점을 둔다. 이 iid condition으로 인해 likelihood 값을 각 데이터 포인트에서 계산된 확률의 곱으로 표현이 가능하다. 그러나 실제 사례에서 마주하는 데이터가 iid 조건에 적절하지 않는 데이터일 수도 있다. 예를 들어 주가 예측에서는 전날의 종가가 주어진...
-
Accelerated Failure Time Model
생존 분석의 목표는 사건이 발생하기까지의 시간을 예측하고 더불어 생존 확률을 추정하는 것에 있다. 기존의 회귀, 분류 문제에서 사용하는 알고리즘을 생존 데이터에 바로 적용하기 어려운 것은 생존 데이터에 중도 절단이란 개념이 포함되어 있기 때문이다. 중도절단과 사건발생 시간을 고려하지 않는 모델은 잘못된 결론을 도출할 수 있다. 대표적인 생존분석 모델 중 하나가 AFT(Accelerated...
-
Concept of Survival Analysis
고객 이탈예측 모형 개발을 위해 생존분석(Survival Analysis)관련 자료를 정리하고자 포스팅을 작성한다. 생존분석은 어떠한 사건이 발생할 확률을 시간이라는 변수와 같이 고려하는 분석 방법으로 의료 통계에서 많이 사용되는데 이 방법을 고객 이탈을 예측하는 모델을 개발하는 과정에서도 사용한다. 생존분석을 공부하기 위해 평소 통계학 문헌에서 언급되지 않았던 몇가지 생소한 개념에 대한 사전 정의가 필요하고...
-
Latent Dirichlet Allocation(2)
앞서 LDA 모델에 대해 설명했던 포스팅에 이어 이번 포스팅에서는 LDA 모델에 대한 parameter 추정 방법에 대해 이야기하고자 한다. LDA는 Gaussian Mixture 모델과 마찬가지로 latent variable을 이용해서 문서의 토픽(topic)을 결정짓는다. 토픽이 곧 하나의 군집(Cluster)와 같다고 보면 된다. 그림과 같이 LDA 모델은 3가지 parameter에 대한 값을 구해야한다. 따라서 Target Posterior Distribution은 3가지...