In Statistics We Trust
-
Content Based Filtering
추천 시스템이란 추천 대상자(이하 사용자)가 관심을 가질만한 컨텐츠(영화, 상품, 음악 등…)를 개인별 맞춤 형태로 추천해주는 것을 의미한다. 기본적으로 추천 시스템을 만들기 위해서는 사용자의 취향을 파악해야 한다. 추천 시스템을 활용하는 기업 입장에서는 사용자에게 구매/이용 가능성이 높은 컨텐츠를 노출 시킴으로써 매출을 증대시킬 수 있다. 유투브 같은 컨텐츠 플랫폼은 사용자가 자기들의 서비스를 더...
-
Latent Dirichlet Allocation(1)
주로 자연어 처리에서 활용되는 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)는 문서의 토픽을 결정하는 확률적 토픽 모델(topic model)이다. 미리 알고 있는 토픽별 단어수 분포를 활용하여 이 문서가 어떠한 토픽을 다루고 있는지 결정 짓는다. 즉, [개미,반도체,공매도]와 같은 단어들이 많이 포함된 뉴스 기사를 경제 카테고리에 [대통령,국회]와 같은 단어들이 많이 포함된 뉴스 기사를 정치...
-
TF-IDF
TF-IDF 개념은 여러 문서가 존재하는 상황에서 특정 단어가 특정 문서 내에서 얼만큼의 중요도를 갖는지 보여주는 통계적인 수치로 텍스트 마이닝 분석에서 가중치로 빈번하게 활용되는 값이다. TF-IDF는 문서 내에서 단어의 활용 횟수만을 중요시하는 Bag of Words 가정에서 출발한다. Bag of Words는 말하고자 하는 주제가 단어의 사용 빈도에 의해 결정된다고 바라보는 것에서 시작하여...
-
Overcoming Imbalanced Class Data
분류 문제를 해결하려는 과정에서 우리는 target data인 \(\mathbf{y}\)의 Class 불균형 이슈를 빈번하게 접하게 된다. 앞선 모델평가 방법론 포스팅에서 소개한 바와 같이 데이터 Class 불균형은 분류 목적 알고리즘 성능에 영향을 미치게 된다. 이러한 상황을 가정해 볼 수 있다. 2020년 카드사의 평균 연체율은 1.4% 수준이다. 따라서 이러한 상황에서는 모든 고객을 대상으로 연체가...
-
Bayesian Linear Regression
먼저 논의했던 Gibbs Sampler, Variational Inference를 활용해 통계학에서 가장 자주 접하게 되는 회귀 분석 문제를 해결해보고자 한다. 두 방법을 사용한 회귀분석 풀이는 널리 알려져있는 LSE 추정 방식과는 차이가 있다. Gibbs Sampler, Variational Inference를 사용하는 Bayesian Linear Regression(베이지안 회귀 분석)은 모델에서 활용되는 parameter 값에 대한 Prior Distribution(사전 분포)를 가정하고 데이터 포인트에...