[Econometrics, 계량경제학] 편향(bias)
인과추론에서 발생할 수 있는 3개의 편향
1. 교란편향(Confounding Bias)
2. 선택편향(Selection Bias)
3. Z-편향(Z-Bias)
https://playinpap.github.io/three-biases-in-causal-inference/
1. 교란편향
"어떤 사람이 하늘을 보는게, 다른 사람도 하늘을 보게 만들까?"
A(어떤 사람이 하늘을 보고 있음)이라는 요인도 있지만, 천둥이 치거나 비가 오는 등 외생요인(L)으로 하늘을 볼 수도 있지 않나?
이러한 외생요인을 고려한 보정이 없다면 교란에 따른 편향이 발생하게 된다.
이 외생변수(교란변수) L을 어떻게 보정할까?
교란변수 L을 처치 A와 함께 결과 Y를 예측하는 모형을 구축해서 효과 추정이 가능함 → outcome regression
그러나 측정되지 않은 교란변수(unmeastured confounder) U가 있다면?
여기서 L은 교란변수의 프록시(proxy)로서 교란변수를 설명할 수 있는 변수이다. 이 변수를 모형에 넣어서 보정하면 교란으로 인한 편향을 없앨 수 있다.
2. 선택편향
데이터 수집 과정에서 문제 발생. 하늘을 보는 사람 바로 앞에서 똑같이 하늘을 본 사람은 속았다는 느낌이 들어 데이터 수집에 동의하지 않을 수 있다. 데이터의 이탈이 완전 무작위가 아니라 처치와 결과의 영향을 받아 발생하는 경우가 있을 수 있다는 것이다.
이 때 최종적으로 수집된 데이터만으로 진행된 추론은 "선택 편향"을 지닌다.
또 다른 예. 금연클리닉
금연클리닉이 금연에 미치는 인과 효과 확인을 위해 흡연자를 추적 관찰했다면?
점차 금연에 성공해가는 사람은 꾸준히 연구에 참여하지만, 여전히 흡연하는 사람은 중도 이탈할 수 있음.
최종적으로 남은 사람만 대상으로 금연클리닉 효과를 분석한다면? 이탈자 정보를 잃어 편향이 생김 → missing data bias
C는 선택편향을 유발할 수 있는 변수이자 조건
특정한 조건(ex. 사망, 생존, 이탈)을 만족하는 표본을 통해 얻은 결과는 편향된 결과일 수 있다.
이런 선택편향은 무작위 배정으로 해결되지 않는다. 변수 보정의 문제를 넘어 어떤 표본을 얻을 것이냐에 대한 문제