• Kernel Support Vector Machine

    앞선 SVM 포스팅에서는 데이터가 선형 hyperplane을 통해 분리가 가능함을 가정하였다. 여기에 Slack Variable을 추가하여 약간의 오차는 눈감아주는 모델도 생성했었다. 그러나 현실적으로 데이터를 선형 hyperplane을 통해 분류해낼 수 있는 경우는 없다. 단순한 XOR 게이트 문제 역시 선형분리시키지 못하는 사례 중 하나다. 이러한 문제를 해결하기 위한 방법으로는 Kernel 기법이 있다. 데이터를 기존의...


  • Model Evaluation Metrics

    모델을 생성하는 과정에서 우리는 예측결과가 가장 좋은 모델을 생성하길 희망한다. 어떠한 예측 모델은 1가지 방법론으로만 만들어지는게 아니다. 분류 분석 문제에서 로지스틱 회귀를 사용할 수도 있고 랜덤 포레스트를 활용할 수도 있다. 즉, 하나의 문제를 해결하기 위해서 다양한 방법론을 활용할 수 있다. 게다가 한가지 방법론 내에서도 hyperparameter 값에 따라 생성가능한 모델의 개수는...


  • Naive Bayes Classifier

    나이브 베이즈 분류기(Naive Bayes Classifier)는 베이즈 정리에 기반하여, 즉 조건부 확률을 이용해 각 Class에 속할 확률을 계산하여 분류를 진행하는 학습 모델을 의미한다. Naive Bayes Classifier는 Naive란 단어가 포함되는 명칭에서 유추할 수 있듯이 가장 단순한 형태의 가정에서 출발한 모델이다. Naive Bayes Classifier는 데이터셋의 모든 컬럼이 동등한 조건으로 영향력을 행사하고 서로 독립적이라는...


  • Posterior Predictive Distribution

    앞서 소개했던 Bayesian Linear Regression 포스팅을 통해서 우리는 기존의 Frequentist들의 회귀계수 \(\beta\)에 대한 추정방법과 다른 Bayesian 방식을 학습하였다. 그러나 분석 목적에 따라 \(\beta\)를 추정하는 것보다 \(\beta\) 값을 이용하여 새로운 독립적인 데이터 \(x_{new}\)가 주어졌을 때, 예측값인 \(y_{new}\) 를 구하는 것이 더 중요할 수도 있다. 앞으로 편의상 \(y\)에 대한 예측값은 \(\tilde{y}\)로 표현하겠다....


  • Principal Component Analysis

    주성분 분석(Principal Component Analysis, 이하 PCA)는 데이터에 대한 정보 손실을 최소화하면서 데이터에 내재된 유의미한 기저변수를 발견해내는 과정에 사용되는 기법이다. PCA는 1. 데이터 차원을 줄이는 과정 2. 데이터의 특징 추출 방법 등에 활용된다. PCA는 기존 데이터 \(\mathbf{X}\)가 \(D\)차원이라고 했을 때, 이 데이터를 최대한 잘 설명해줄 수 있는 \(M\)차원의 주성분(principal component)을 만들어내는...