In Statistics We Trust
-
Concept of Hidden Markov Model
데이터에 대한 분포 가정을 하는 과정에서 우리는 빈번하게 독립적이고 동일한 분포(iid condition)에서 생성된 데이터 집합에 초점을 둔다. 이 iid condition으로 인해 likelihood 값을 각 데이터 포인트에서 계산된 확률의 곱으로 표현이 가능하다. 그러나 실제 사례에서 마주하는 데이터가 iid 조건에 적절하지 않는 데이터일 수도 있다. 예를 들어 주가 예측에서는 전날의 종가가 주어진...
-
Accelerated Failure Time Model
생존 분석의 목표는 사건이 발생하기까지의 시간을 예측하고 더불어 생존 확률을 추정하는 것에 있다. 기존의 회귀, 분류 문제에서 사용하는 알고리즘을 생존 데이터에 바로 적용하기 어려운 것은 생존 데이터에 중도 절단이란 개념이 포함되어 있기 때문이다. 중도절단과 사건발생 시간을 고려하지 않는 모델은 잘못된 결론을 도출할 수 있다. 대표적인 생존분석 모델 중 하나가 AFT(Accelerated...
-
Concept of Survival Analysis
고객 이탈예측 모형 개발을 위해 생존분석(Survival Analysis)관련 자료를 정리하고자 포스팅을 작성한다. 생존분석은 어떠한 사건이 발생할 확률을 시간이라는 변수와 같이 고려하는 분석 방법으로 의료 통계에서 많이 사용되는데 이 방법을 고객 이탈을 예측하는 모델을 개발하는 과정에서도 사용한다. 생존분석을 공부하기 위해 평소 통계학 문헌에서 언급되지 않았던 몇가지 생소한 개념에 대한 사전 정의가 필요하고...
-
Latent Dirichlet Allocation(2)
앞서 LDA 모델에 대해 설명했던 포스팅에 이어 이번 포스팅에서는 LDA 모델에 대한 parameter 추정 방법에 대해 이야기하고자 한다. LDA는 Gaussian Mixture 모델과 마찬가지로 latent variable을 이용해서 문서의 토픽(topic)을 결정짓는다. 토픽이 곧 하나의 군집(Cluster)와 같다고 보면 된다. 그림과 같이 LDA 모델은 3가지 parameter에 대한 값을 구해야한다. 따라서 Target Posterior Distribution은 3가지...
-
Bayesian Optimization
Gaussian Process를 활용하는 대표적인 사례가 바로 Bayesian Optimization이다. 모델을 생성하는 과정에서 Grid Search와 Random Search 대안으로 Bayesian Optimization이 언급되므로 Bayesian Optimization에 대한 정리를 진행해보고자 한다. Optimization이란 기본적으로 input 값들을 입력받아 어떠한 함수 \(f(\mathbf{x})\) 가 반환하는 결과를 maximize(또는 minimize) 하는 과정에서 발생한다. \[x^{*} = \text{argmax}_{x \in \mathbf{X}} f(x)\] 이는 우리가 알아내고자...