• Bayes by Backprop

    Bayesian Neural Network는 모델 학습 과정에서 weight \(\mathbf{w}\)가 determinstic한 값을 갖는 것으로 간주하는 기존의 Neural Network와 달리 weight \(\mathbf{w}\)에 대한 확률 분포를 설정함으로써 weight \(\mathbf{w}\)와 output \(\mathbf{y}\) 에 대한 분포를 제공하여 모델의 불확실성(uncertainty) 까지도 제공하는 모델이라 할 수 있다. 그렇다면 Bayesian Neural Network(이하 BNN)는 기존의 Neural Network(이하 NN)와 무슨 포인트에서...


  • Dirichlet Process Mixture Model

    Mixture Model에서 Dirichlet Distribution을 사용하는 일반적인 방식은 parameter의 차원이 k로 고정되어 있고 이 k차원의 parameter에 대한 prior로 활용하는 것이었다. GMM에서 cluster의 개수는 정해져 있었고 k번째 cluster로 할당될 latent variable \(z_{k}\)를 정의하고 \(p(z_{k}=1) = \pi_{k}\) 에서의 \(\pi_{k}\)에 대한 prior로 Dirichlet Distribution을 활용했다. 그러나 Dirichlet Process Mixture Model(DPMM)은 k를 특정 차원으로 한정짓지...


  • Concept of Dirichlet Process

    Dirichlet Process는 Dirichlet Distribution을 따르는 Random Process로 Unsupervised Learning에 자주 활용된다. 기존에 학습했던 Unsupervised Learning은 GMM, K-Means와 같은 Clustering 문제였다. 기존 GMM, K-Means 문제에서는 cluster의 개수 k를 분석가가 명시적으로 지정해야하는, 사람이 개입해야하는 이슈가 있었다. 이러한 문제에서 조금 더 자유로워지고자 할 때, cluster의 개수 k를 사람이 명시적으로 지정하지 않는 방식을 취하고자...


  • Pandas Cheating Sheet

    업무에 자주 사용하는 Python Pandas 함수를 정리하고자 한다. 이 포스팅을 업로드한 이유는 개인적인 Cheating Sheet로 활용하기 위함이며, 추후 계속 업데이트할 생각이다. csv 파일 불러오기 import pandas as pd pd.set_option('display.max_columns', None) pd.set_option('display.max_rows', None) df = pd.read_csv(r'C:\Users\seolbluewings\Desktop\sample\Hitters.csv') 역슬래쉬 사용할 경우, 가장 앞에 reverse를 뜻하는 r 표기 필요하고 아닌 경우에는 / 사용하면 됨...


  • Concept of Hidden Markov Model 2

    앞선 포스팅에서는 HMM 모델에서 추정하게 될 항목들을 계산하기 위해서 EM 알고리즘을 활용하게 되며, E Step에서 정의한 notation을 계산하는 방법에 대해 추가적인 논의가 필요하다고 소개하였다. \(\gamma,\xi\)에 대한 정의를 했는데 이를 계산하기 위한 대표적인 방법으로는 foward-backward 알고리즘이란 것이 있다. \(\gamma, \xi\) 모두 latent variable \(\mathbf{z}\)에 대한 분포를 표현하는 식이므로 모든 n에 대한...