In Statistics We Trust

Latent Dirichlet Allocation(1)

주로 자연어 처리에서 활용되는 LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)는 문서의 토픽을 결정하는 확률적 토픽 모델(topic model)이다. 미리 알고 있는 토픽별 단어수 분포를 활용하여 이 문서가 어떠한 토픽을 다루고 있는지 결정 짓는다. 즉, [개미,반도체,공매도]와 같은 단어들이 많이 포함된 뉴스 기사를 경제 카테고리에 [대통령,국회]와 같은 단어들이 많이 포함된 뉴스 기사를 정치...

March 15, 2021

in Statistics

TF-IDF

TF-IDF 개념은 여러 문서가 존재하는 상황에서 특정 단어가 특정 문서 내에서 얼만큼의 중요도를 갖는지 보여주는 통계적인 수치로 텍스트 마이닝 분석에서 가중치로 빈번하게 활용되는 값이다. TF-IDF는 문서 내에서 단어의 활용 횟수만을 중요시하는 Bag of Words 가정에서 출발한다. Bag of Words는 말하고자 하는 주제가 단어의 사용 빈도에 의해 결정된다고 바라보는 것에서 시작하여...

March 10, 2021

in Statistics

Overcoming Imbalanced Class Data

분류 문제를 해결하려는 과정에서 우리는 target data인 \(\mathbf{y}\)의 Class 불균형 이슈를 빈번하게 접하게 된다. 앞선 모델평가 방법론 포스팅에서 소개한 바와 같이 데이터 Class 불균형은 분류 목적 알고리즘 성능에 영향을 미치게 된다. 이러한 상황을 가정해 볼 수 있다. 2020년 카드사의 평균 연체율은 1.4% 수준이다. 따라서 이러한 상황에서는 모든 고객을 대상으로 연체가...

March 3, 2021

in Statistics

Bayesian Linear Regression

먼저 논의했던 Gibbs Sampler, Variational Inference를 활용해 통계학에서 가장 자주 접하게 되는 회귀 분석 문제를 해결해보고자 한다. 두 방법을 사용한 회귀분석 풀이는 널리 알려져있는 LSE 추정 방식과는 차이가 있다. Gibbs Sampler, Variational Inference를 사용하는 Bayesian Linear Regression(베이지안 회귀 분석)은 모델에서 활용되는 parameter 값에 대한 Prior Distribution(사전 분포)를 가정하고 데이터 포인트에...

February 15, 2021

in Statistics

Gaussian Mixture Model

우리는 통계문제를 해결하는 과정에서 데이터가 가우시안 분포(정규 분포)를 따를 것이라는 가정을 자주 한다. 그러나 데이터의 분포를 단 1개의 가우시안 분포만을 사용하여 표현하려는 것은 위험한 부분이 있다. 다음과 같은 경우를 고려해보자. 그림을 통해 확인할 수 있는 것처럼 이 데이터들은 2개의 집단으로 나누어진 것으로 판단하는 것이 옳다. 하나의 가우시안 분포만으로는 데이터를 설명하기는...

January 24, 2021

in Statistics