In Statistics We Trust
-
Cox Proportional-Hazard Model
고객 이탈 예측을 위해 생존분석의 개념을, 구체적인 모델링을 위해서 Cox Proportional Hazard Model에 대해 알아보고자 한다. Kaplan-Meier 분석은 시간에 따른 특정 집단의 잔존률 분석에 활용되었는데 Cox PH Model은 잔존률에 영향을 미치는 변수를 분석하는 것으로 보유카드 개수가 1개 줄었을 때, 고객이 이탈할 확률이 얼마나 변동되는가? 라는 질문에 대한 답을 찾을 수...
-
Granger Causality
서로 시차가 존재하는 데이터간의 선/후행을 따져 인과관계를 알아보고자 할 때, 사용할 수 있는 방법 중 하나가 Granger Causality이다. 다음과 같이 시계열 데이터 \(\{x_{t}\}_{t=1}^{T}\)와 \(\{y_{t}\}^{T}_{t=1}\) 가 존재할 때, \(y_{t}\)가 \(x_{t}\)의 과거 데이터 linear regression 형태로 적합되며 이 linear regression이 통계적으로 유의미할 때, \(\{x_{t}\}_{t=1}^{T}\)와 \(\{y_{t}\}^{T}_{t=1}\)는 Granger Causality 관계에 있다고 말한다. 여기서 그냥...
-
Regression Spline
Modeling 과정에서 Linear Regression을 활용한 케이스가 많다. 이는 Linear Model이 결과에 대한 해석이 용이하다는 점에서 기인한 것이다. 그러나 Linear Model은 예측력이 다소 떨어진다는 단점이 있고 특히 현실의 문제를 해결하는 과정에서 \(f(\mathbf{x})\)의 함수 \(f\)가 선형함수인 경우는 드물다고 봐야한다. 그래서 Linear Regression에 대한 변형을 주게 되는데 이번 포스팅에서는 Regression Spline이라는 것을 살펴보고자...
-
Factorization Machines
Factorization Machines(이하 FM)은 실수값으로 이루어진 input 벡터에 대해 범용적으로 적용할 수 있는 모델이다. FM 모델은 데이터가 sparse한 상태에서 SVM이 적절한 비선형 hyper-plane을 만들지 못하는 단점을 보완하기 위해 생성된 모델로 Factorization을 통한 데이터 Sparsity 이슈를 해결한다. 모델 개발을 위해 데이터셋을 생성하다보면 sparse한 데이터셋이 빈번하게 생성된다. 추천 시스템을 만드는 과정에서도 sparse한 데이터가...
-
Concept of Python's Class
클래스(Class)는 객체 지향형 언어에서 볼 수 있는 개념으로 이번 포스팅에서는 Python에서의 클래스에 대해 알아보고자 한다. 클래스는 인스턴스(instance)를 만드는데 활용되는 설계도로 인스턴스는 Class에 의해 생성된 객체라고 보면 된다. 객체 지향형 프로그래밍을 수행하는 목적은 코드 재사용, 중복방지, 유지보수 용이성 등으로 이는 개발 과정에서 항상 신경써야할 부분이 아닐 수가 없는 사항들이다. Class를 써야하는...