• Cluster Analysis

    군집 분석(Cluster Analysis)은 대표적인 비지도 학습법으로 관측값 \(\mathbf{X} = \{x_{1},x_{2},...,x_{N}\}\) 을 적절한 기준에 따라 비슷한 것들끼리 모으는 과정이다. 즉 데이터의 Segmentation 과정인 것이다. 좀 더 쉽게 표현하자면, 비슷한 데이터 포인트끼리 한 그룹으로 묶고 서로 다른 데이터 포인트끼리는 다른 그룹으로 묶어버리는 과정이다. 유사한 속성을 지닌 데이터를 모아 하나의 집단으로 인지하는 과정인...


  • Hyperparameter Tuning

    교차검증은 모델의 일반화 성능을 측정하는 방법이며 이제는 모델의 hyperparameter를 튜닝함으로써 일반화 성능을 향상시키는 방법을 알아보고자 한다. 모델의 일반화 성능을 최대로 높여주는 hyperparameter 값을 찾는 일은 모든 데이터 분석에서 반드시 진행해야하는 작업이다. 이에 대하여 알아보자. hyperparameter란? hyperparameter는 모델링 과정에서 분석자가 직접 설정하는 값을 의미한다. 예시를 들어서 설명하자면, 랜덤 포레스트 모델에서 n_estimators...


  • Cross-Validation

    앞선 포스팅에서 우리는 전체 MSE를 낮게하는 것 중에서 분산과 편향의 적절한 균형을 찾아야 한다고 말했다. 그렇다면 우리는 어느 정도의 복잡도를 갖춘 모델을 결정해야 한다. 그 적정 수준은 어떻게 결정지을 수 있을까? 학습의 일반화(generalization) 예측을 위한 모델의 경우, 훈련 데이터셋(training data set) 뿐만 아니라 아직 마주하지 못한 새로운 데이터(test data set)에...


  • Bias-Variance Trade-Off

    우리는 모델을 통한 예측을 진행할 때, 모델의 퍼포먼스를 측정하게 된다. 분류의 문제라면 정확도(accuracy)나 F1 score 같은 것들을 이용할 것이고 회귀분석의 경우라면 평균제곱오차(MSE)가 모델의 퍼포먼스를 측정하는데 가장 빈번하게 사용하는 기준이 된다. 결과값 \(\bf{y}\)에 대한 예측을 한다고 할 때, MSE는 다음과 같이 편향(이하 bias)의 제곱과 분산의 합으로 표현될 수 있다. \[\begin{align} \text{MSE}(\bf{\hat{y}})...


  • Bagging and Random Forest

    앙상블(Ensemble) 기법은 다수의 기초 학습기를 생성하고 이를 결합하여 학습을 시도하는 것을 의미한다. 앙상블이란 단어를 ‘여러가지 알고리즘을 모아 성능을 향상시키는 것’이라 이해할 수 있다. 앙상블 기법을 통해서 우리는 보통 더 안정적이고(More Stability) 더 예측력이 높은(Better Accuracy) 모델을 생성해낼 수 있다. 앙상블 개요 그림처럼 앙상블은 base learner를 생성하고 이를 결합하여 더 예측력이...