In Statistics We Trust

Basic of Neural Network

신경망(Neural Network) 모델은 딥러닝을 이해하기 위해서 가장 기본이 되는 개념이라 할 수 있다. 생물학적 신경망 구조로부터 착안되어 만들어진 알고리즘이며, 입력값과 출력값 사이의 복잡한 형태의 비선형모형을 만들기 위해 사용된다. 신경망의 기본적인 작동 원리는 여러개의 뉴런을 상호 연결하여 입력값에 대한 최적의 출력값을 예측하는 것이다. 이 모델은 예측력이 매우 좋은데 비해 해석이 어렵다는...

September 28, 2020

in Statistics

Markov Chain Monte Carlo

마르코프 체인 몬테 카를로(Markov Chain Monte Carlo), 흔히 MCMC 방법이라 알려진 이 기법은 다양한 형태의 분포로부터 parameter의 sampling을 수행할 수 있는 방법이다. 우리는 베이지안 방법론을 사용하는 과정에서 사전 분포(prior distribution)와 데이터를 바탕으로 하는 likelihood 를 곱해 사후 분포(Posterior distribution)를 결정짓는다. \[p(\theta\mid\mathbf{X}) \propto p(\theta)p(\mathbf{X}\mid\theta)\] 사전 분포를 선택할 때, conjugate prior를 설정하지...

August 4, 2020

in Statistics

Basic of Boosting

부스팅(Boosting)은 배깅(Bagging)과 마찬가지로 간단하면서도 성능이 높은 앙상블 기법이다. 우리는 편향-분산 트레이드오프 관계에서 확인했듯이 모델로 인해 발생하는 오류를 편향 성분과 분산 성분으로 나눌 수 있었다. Bagging이 분산 성분을 줄여서 모델의 오류를 줄이는 방식이라면, Boosting은 편향 성분을 줄이는 방식이라 할 수 있다. Boosting이 Bagging과 어떤 면에서 차이가 있는지를 먼저 짚고 넘어가야 한다....

July 14, 2020

in Statistics

Concept of Collaborative Filtering

우리는 일상 생활 속에서 추천 시스템(Recommendation System)을 자주 접하게 된다. 영화를 선택하는 과정에서 플랫폼(왓챠 또는 넷플릭스)은 나에게 잘 맞을 것 같은 영화를 제시해준다. 인터넷에서 물건을 구매하는 과정에서도 내가 관심있을 것으로 여겨지는 상품을 추천 받는다. 일상 생활 속에서 수많은 추천 시스템을 접하고 있기 때문에 우리는 이 추천 시스템이 어떤 논리와 이론...

June 29, 2020

in Statistics

EM Algorithm

EM알고리즘은 잠재변수(latent variable)를 갖는 확률 모델의 MLE 값을 찾는 과정에서 활용되는 기법이다. 잠재변수를 활용하는 가우시안 혼합 모델에 관한 추정에 자주 활용되는 기법이기도 하다. 우선 관측변수 \(\mathbf{X}=\{x_{1},...x_{N}\}\) 이라 하자. 잠재변수 \(\mathbf{Z}=\{z_{1},z_{2},...z_{n}\}\) 는 이 논의를 진행하는 과정에서 이산형 변수라고 가정하자. 만약 \(\mathbf{Z}\)가 연속형이라면, 아래의 과정에서 합표기가 되어있는 것을 적분으로 바꾸면 된다. 그리고...

June 27, 2020

in Statistics