In Statistics We Trust

Hyperparameter Tuning

교차검증은 모델의 일반화 성능을 측정하는 방법이며 이제는 모델의 hyperparameter를 튜닝함으로써 일반화 성능을 향상시키는 방법을 알아보고자 한다. 모델의 일반화 성능을 최대로 높여주는 hyperparameter 값을 찾는 일은 모든 데이터 분석에서 반드시 진행해야하는 작업이다. 이에 대하여 알아보자. hyperparameter란? hyperparameter는 모델링 과정에서 분석자가 직접 설정하는 값을 의미한다. 예시를 들어서 설명하자면, 랜덤 포레스트 모델에서 n_estimators...

June 6, 2020

in Statistics

Cross-Validation

앞선 포스팅에서 우리는 전체 MSE를 낮게하는 것 중에서 분산과 편향의 적절한 균형을 찾아야 한다고 말했다. 그렇다면 우리는 어느 정도의 복잡도를 갖춘 모델을 결정해야 한다. 그 적정 수준은 어떻게 결정지을 수 있을까? 학습의 일반화(generalization) 예측을 위한 모델의 경우, 훈련 데이터셋(training data set) 뿐만 아니라 아직 마주하지 못한 새로운 데이터(test data set)에...

May 31, 2020

in Statistics

Bias-Variance Trade-Off

우리는 모델을 통한 예측을 진행할 때, 모델의 퍼포먼스를 측정하게 된다. 분류의 문제라면 정확도(accuracy)나 F1 score 같은 것들을 이용할 것이고 회귀분석의 경우라면 평균제곱오차(MSE)가 모델의 퍼포먼스를 측정하는데 가장 빈번하게 사용하는 기준이 된다. 결과값 \(\bf{y}\)에 대한 예측을 한다고 할 때, MSE는 다음과 같이 편향(이하 bias)의 제곱과 분산의 합으로 표현될 수 있다. \[\begin{align} \text{MSE}(\bf{\hat{y}})...

April 16, 2020

in Statistics

Bagging and Random Forest

앙상블(Ensemble) 기법은 다수의 기초 학습기를 생성하고 이를 결합하여 학습을 시도하는 것을 의미한다. 앙상블이란 단어를 ‘여러가지 알고리즘을 모아 성능을 향상시키는 것’이라 이해할 수 있다. 앙상블 기법을 통해서 우리는 보통 더 안정적이고(More Stability) 더 예측력이 높은(Better Accuracy) 모델을 생성해낼 수 있다. 앙상블 개요 그림처럼 앙상블은 base learner를 생성하고 이를 결합하여 더 예측력이...

March 30, 2020

in Statistics

Basic of Decision Tree

의사결정나무는 스무고개 놀이와 비슷한 알고리즘이라 할 수 있다. 내가 생각한 인물을 맞춰내는 아키네이터 게임과 유사한 방식으로 알고리즘이 작동한다. 아래 그림은 유명한 타이타닉 데이터의 Y값인 생존여부를 맞추는 과정이며, 의사결정나무는 위와 같이 Y/N 형식의 대답이 나올 수 밖에 없는 알고리즘을 학습을 진행하게 된다. 그 결과 우리는 개인이 타이타닉호에서 생존했는지 사망했는지를 예측하는 값을...

March 30, 2020

in Statistics