In Statistics We Trust
-
Bayesian Optimization
Gaussian Process를 활용하는 대표적인 사례가 바로 Bayesian Optimization이다. 모델을 생성하는 과정에서 Grid Search와 Random Search 대안으로 Bayesian Optimization이 언급되므로 Bayesian Optimization에 대한 정리를 진행해보고자 한다. Optimization이란 기본적으로 input 값들을 입력받아 어떠한 함수 \(f(\mathbf{x})\) 가 반환하는 결과를 maximize(또는 minimize) 하는 과정에서 발생한다. \[x^{*} = \text{argmax}_{x \in \mathbf{X}} f(x)\] 이는 우리가 알아내고자...
-
Gaussian Process
Input 데이터 \(x_{i}\)에 대한 Target Output \(t_{i}\)는 일반적으로 \(t_{i}=y(x_{i})+\epsilon_{i}\) 로 표현 가능하다. 모델은 어떠한 현상을 수식으로 표현하는 것인데 이는 결국 \(t_{i}\)를 가장 잘 설명할 수 있는 최적의 함수 \(y(x_{i})\)를 구하는 것이라고 볼 수 있다. 함수 \(y(x_{i})\)가 선형회귀 식이라고 할 때, 지금까지는 함수 \(y(x_{i})\)의 parameter인 \(\theta\)의 분포 \(p(\theta\vert x,y)\)를 찾는 것을...
-
Permutation Feature Importance
PDP처럼 변수 중요도를 파악할 수 있는 방법은 여러가지 있다. 이번 포스팅에서는 PDP처럼 변수의 중요도 파악에 자주 활용되는 방법인 Permutation Feature Importance(이하 PFI)를 소개하고자 한다. 변수의 중요도를 파악할 때, 우리는 변수의 존재 유무에 따른 모델의 성능을 비교하는 가장 직관적인 방법을 선택할 수 있다. 변수 \(\mathbf{X} = \{x_{1},...,x_{n}\}\) 에 대해서 \(x_{i}\)의 중요도를...
-
Partial Dependence Plot
모델은 보통 2가지 관점에서 평가를 받는다. 관점 하나는 설명력이고 또 다른 관점 하나는 예측력이다. 보통 예측력이 좋은 모델일수록 해석력이 떨어지는 것으로 알려져 있다. 여기서 모델을 해석한다는 것은 변수 \(\mathbf{X}\)가 1단위 증가할 때, 반응변수 \(\mathbf{y}\)가 얼마나 변하는가? 를 알아내는 것을 의미한다. 결국 이는 Input에 의한 Output의 변동성을 체크한다는 것이다. 그러나 앙상블...
-
Open API
오픈 API를 알기 위해서 먼저 API에 대해 알아야 한다. API는 Application Programming Interface의 줄임말이다. Application Program은 말그대로 응용 프로그램이고 결국 API의 의미를 알기 위해서는 I에 해당하는 단어 인터페이스(Interface)란 말을 이해해야 한다. 인터페이스란 데이터를 주고받기 위한 방법을 정의내린 것이다. 데이터를 주고 받기위해 데이터 요청과정에 대한 규격, 데이터 수신에 대한 규격을 정하는...