• Markov Chain Monte Carlo

    마르코프 체인 몬테 카를로(Markov Chain Monte Carlo), 흔히 MCMC 방법이라 알려진 이 기법은 다양한 형태의 분포로부터 parameter의 sampling을 수행할 수 있는 방법이다. 우리는 베이지안 방법론을 사용하는 과정에서 사전 분포(prior distribution)와 데이터를 바탕으로 하는 likelihood 를 곱해 사후 분포(Posterior distribution)를 결정짓는다. \[p(\theta\mid\mathbf{X}) \propto p(\theta)p(\mathbf{X}\mid\theta)\] 사전 분포를 선택할 때, conjugate prior를 설정하지...


  • Basic of Boosting

    부스팅(Boosting)은 배깅(Bagging)과 마찬가지로 간단하면서도 성능이 높은 앙상블 기법이다. 우리는 편향-분산 트레이드오프 관계에서 확인했듯이 모델로 인해 발생하는 오류를 편향 성분과 분산 성분으로 나눌 수 있었다. Bagging이 분산 성분을 줄여서 모델의 오류를 줄이는 방식이라면, Boosting은 편향 성분을 줄이는 방식이라 할 수 있다. Boosting이 Bagging과 어떤 면에서 차이가 있는지를 먼저 짚고 넘어가야 한다....


  • Concept of Collaborative Filtering

    우리는 일상 생활 속에서 추천 시스템(Recommendation System)을 자주 접하게 된다. 영화를 선택하는 과정에서 플랫폼(왓챠 또는 넷플릭스)은 나에게 잘 맞을 것 같은 영화를 제시해준다. 인터넷에서 물건을 구매하는 과정에서도 내가 관심있을 것으로 여겨지는 상품을 추천 받는다. 일상 생활 속에서 수많은 추천 시스템을 접하고 있기 때문에 우리는 이 추천 시스템이 어떤 논리와 이론...


  • EM Algorithm

    EM알고리즘은 잠재변수(latent variable)를 갖는 확률 모델의 MLE 값을 찾는 과정에서 활용되는 기법이다. 잠재변수를 활용하는 가우시안 혼합 모델에 관한 추정에 자주 활용되는 기법이기도 하다. 우선 관측변수 \(\mathbf{X}=\{x_{1},...x_{N}\}\) 이라 하자. 잠재변수 \(\mathbf{Z}=\{z_{1},z_{2},...z_{n}\}\) 는 이 논의를 진행하는 과정에서 이산형 변수라고 가정하자. 만약 \(\mathbf{Z}\)가 연속형이라면, 아래의 과정에서 합표기가 되어있는 것을 적분으로 바꾸면 된다. 그리고...


  • Cluster Analysis

    군집 분석(Cluster Analysis)은 대표적인 비지도 학습법으로 관측값 \(\mathbf{X} = \{x_{1},x_{2},...,x_{N}\}\) 을 적절한 기준에 따라 비슷한 것들끼리 모으는 과정이다. 즉 데이터의 Segmentation 과정인 것이다. 좀 더 쉽게 표현하자면, 비슷한 데이터 포인트끼리 한 그룹으로 묶고 서로 다른 데이터 포인트끼리는 다른 그룹으로 묶어버리는 과정이다. 유사한 속성을 지닌 데이터를 모아 하나의 집단으로 인지하는 과정인...