• Regular Expression

    정규표현식은 프로그래밍 과정에서 문자열을 다룰 때, 문자열의 일정한 패턴을 표현하는 형식 언어이다. 본격적인 웹 스크래핑/크롤링에 앞서 스크래핑/크롤링 시 찾고자하는 문자를 더욱 쉽게 찾게 해줄 정규표현식을 정리해보고자 한다. 정규 표현식은 Python의 고유문법이 아니고 문자열을 처리하는 모든 Tool에서 사용가능하다. 정규표현식에서 자주 사용하는 메타 문자(meta characters)는 다음과 같다. 메타 문자는 문자 본래의 의미가...


  • Cox Proportional-Hazard Model

    고객 이탈 예측을 위해 생존분석의 개념을, 구체적인 모델링을 위해서 Cox Proportional Hazard Model에 대해 알아보고자 한다. Kaplan-Meier 분석은 시간에 따른 특정 집단의 잔존률 분석에 활용되었는데 Cox PH Model은 잔존률에 영향을 미치는 변수를 분석하는 것으로 보유카드 개수가 1개 줄었을 때, 고객이 이탈할 확률이 얼마나 변동되는가? 라는 질문에 대한 답을 찾을 수...


  • Granger Causality

    서로 시차가 존재하는 데이터간의 선/후행을 따져 인과관계를 알아보고자 할 때, 사용할 수 있는 방법 중 하나가 Granger Causality이다. 다음과 같이 시계열 데이터 \(\{x_{t}\}_{t=1}^{T}\)와 \(\{y_{t}\}^{T}_{t=1}\) 가 존재할 때, \(y_{t}\)가 \(x_{t}\)의 과거 데이터 linear regression 형태로 적합되며 이 linear regression이 통계적으로 유의미할 때, \(\{x_{t}\}_{t=1}^{T}\)와 \(\{y_{t}\}^{T}_{t=1}\)는 Granger Causality 관계에 있다고 말한다. 여기서 그냥...


  • Regression Spline

    Modeling 과정에서 Linear Regression을 활용한 케이스가 많다. 이는 Linear Model이 결과에 대한 해석이 용이하다는 점에서 기인한 것이다. 그러나 Linear Model은 예측력이 다소 떨어진다는 단점이 있고 특히 현실의 문제를 해결하는 과정에서 \(f(\mathbf{x})\)의 함수 \(f\)가 선형함수인 경우는 드물다고 봐야한다. 그래서 Linear Regression에 대한 변형을 주게 되는데 이번 포스팅에서는 Regression Spline이라는 것을 살펴보고자...


  • Factorization Machines

    Factorization Machines(이하 FM)은 실수값으로 이루어진 input 벡터에 대해 범용적으로 적용할 수 있는 모델이다. FM 모델은 데이터가 sparse한 상태에서 SVM이 적절한 비선형 hyper-plane을 만들지 못하는 단점을 보완하기 위해 생성된 모델로 Factorization을 통한 데이터 Sparsity 이슈를 해결한다. 모델 개발을 위해 데이터셋을 생성하다보면 sparse한 데이터셋이 빈번하게 생성된다. 추천 시스템을 만드는 과정에서도 sparse한 데이터가...