In Statistics We Trust
-
Causal Inference
먼저 심슨의 역설(Simpson’s paradox)에 대해 언급하도록 하자. 심슨의 역설이란 전체 집단에서 나타나는 통계적 연관성(statistical association)이 하위 집단에서는 동일하게 유지되지 않는 현상을 의미한다. 다음과 같은 사례를 생각해보자. 새로운 약이 개발되었고 새로운 약을 먹은 집단과 그렇지 않은 집단에 대해 환자의 회복 수준을 비교를 한다고 하자. A/B 표기는 총 B명 중 A명이 회복되었다는...
-
Drawing a Player Pass Map
2018 FIFA 러시아 월드컵 대한민국 vs 독일 경기의 데이터를 가져와 개별 선수의 패스맵과 히트맵을 그리고자 한다. 데이터는 Statsbomb open resource를 활용하였다. 해당 링크에서는 다른 월드컵 경기 데이터 역시 구할 수 있다. 대한민국 vs 독일 경기는 7567번 파일이므로 해당 파일을 주소에서 다운 받아 불러온다. 먼저 필요한 라이브러리를 불러온다. %matplotlib inline import...
-
Concept of Bayesian Network 2
일반적으로 K개의 변수를 갖는 joint distribution, \(p(x_{1},...,x_{K})\)은 다음과 같이 전개(factorization)이 가능하다. \[\begin{align} p(x_{1},...,x_{K}) &= p(x_{K}\mid x_{1},...x_{k-1})p(x_{1},...,x_{k-1}) \\ &= p(x_{K}\mid x_{1},...x_{k-1})p(x_{K-1}\mid x_{1},...,x_{K-2})p(x_{1},...,x_{K-2}) \\ &= p(x_{K}\mid x_{1},...,x_{K-1})\cdot\cdot\cdot p(x_{2}\mid x_{1})p(x_{1}) \end{align}\] 위와 같은 경우의 베이지안 네트워크를 fully connected 되었다고 하며, 이는 임의의 두쌍의 노드가 서로 연결되어 있음을 의미한다. 그러나 아래 그림과 같이 일부...
-
Concept of Bayesian Network 1
베이지안 네트워크(Bayesian Network)는 확률변수 간의 관계를 노드(node)와 링크(link) 혹은 엣지(edge)를 사용해 그래프 모델로 표현하는 것이다. 이후의 논의를 진행하기에 앞서 다음의 용어들에 대하여 정리하고 가도록 한다. 노드(node) : 확률 변수 1개를 1개의 노드로 표현 링크(link) : 엣지(edge)라고 불리기도 하며 이는 확률변수들 사이의 확률적 관계를 나타낸다. 화살표로 표시된다. 베이지안 네트워크(Bayesian Network)는 다음의...
-
Probit model
기존의 회귀분석 모델 \(\mathbf{y} = \mathbf{X}\beta + \epsilon\) 모형은 보통 1. \(\mathbf{X}\)와 \(\mathbf{y}\) 사이의 선형 관계가 있고 2. \(\mathbf{y}\)가 정규분포를 따른다고 볼 수 있을 때, 활용하는 것이 적절하다. 그러나 현실 세계에서는 이러한 조건에 부합하지 않는 데이터가 많다. \(\mathbf{X}\)와 \(\mathbf{y}\)가 선형관계가 아닌 S자 형태의 관계를 보일 수도 있고 \(\mathbf{y}\)가 정규분포가 아닌...