In Statistics We Trust
-
Gaussian Process
Input 데이터 \(x_{i}\)에 대한 Target Output \(t_{i}\)는 일반적으로 \(t_{i}=y(x_{i})+\epsilon_{i}\) 로 표현 가능하다. 모델은 어떠한 현상을 수식으로 표현하는 것인데 이는 결국 \(t_{i}\)를 가장 잘 설명할 수 있는 최적의 함수 \(y(x_{i})\)를 구하는 것이라고 볼 수 있다. 함수 \(y(x_{i})\)가 선형회귀 식이라고 할 때, 지금까지는 함수 \(y(x_{i})\)의 parameter인 \(\theta\)의 분포 \(p(\theta\vert x,y)\)를 찾는 것을...
-
Permutation Feature Importance
PDP처럼 변수 중요도를 파악할 수 있는 방법은 여러가지 있다. 이번 포스팅에서는 PDP처럼 변수의 중요도 파악에 자주 활용되는 방법인 Permutation Feature Importance(이하 PFI)를 소개하고자 한다. 변수의 중요도를 파악할 때, 우리는 변수의 존재 유무에 따른 모델의 성능을 비교하는 가장 직관적인 방법을 선택할 수 있다. 변수 \(\mathbf{X} = \{x_{1},...,x_{n}\}\) 에 대해서 \(x_{i}\)의 중요도를...
-
Partial Dependence Plot
모델은 보통 2가지 관점에서 평가를 받는다. 관점 하나는 설명력이고 또 다른 관점 하나는 예측력이다. 보통 예측력이 좋은 모델일수록 해석력이 떨어지는 것으로 알려져 있다. 여기서 모델을 해석한다는 것은 변수 \(\mathbf{X}\)가 1단위 증가할 때, 반응변수 \(\mathbf{y}\)가 얼마나 변하는가? 를 알아내는 것을 의미한다. 결국 이는 Input에 의한 Output의 변동성을 체크한다는 것이다. 그러나 앙상블...
-
Open API
오픈 API를 알기 위해서 먼저 API에 대해 알아야 한다. API는 Application Programming Interface의 줄임말이다. Application Program은 말그대로 응용 프로그램이고 결국 API의 의미를 알기 위해서는 I에 해당하는 단어 인터페이스(Interface)란 말을 이해해야 한다. 인터페이스란 데이터를 주고받기 위한 방법을 정의내린 것이다. 데이터를 주고 받기위해 데이터 요청과정에 대한 규격, 데이터 수신에 대한 규격을 정하는...
-
Content Based Filtering
추천 시스템이란 추천 대상자(이하 사용자)가 관심을 가질만한 컨텐츠(영화, 상품, 음악 등…)를 개인별 맞춤 형태로 추천해주는 것을 의미한다. 기본적으로 추천 시스템을 만들기 위해서는 사용자의 취향을 파악해야 한다. 추천 시스템을 활용하는 기업 입장에서는 사용자에게 구매/이용 가능성이 높은 컨텐츠를 노출 시킴으로써 매출을 증대시킬 수 있다. 유투브 같은 컨텐츠 플랫폼은 사용자가 자기들의 서비스를 더...