https://everyday-tech.tistory.com/30
https://medium.com/bondata/regression-discontinuity-bba1c4d7a08c
불연속 회귀 설계(RDD, Regression Discontinuity Design)
treatment가 특정 제약 조건이나 자격 하에 정해지는 경우에 사용한다.
명확하게 control, treatment group이 존재하지 않는다. 이유는 밑에서 알아보자.
예 1. 법적 최소 음주연령(MLDA) 제도 도입
MLDA 라는 treatment(shock)가 발생했을 때, 음주가 사망에 영향을 미치는 인과 관계를 분석한다.
미국의 MLDA 제도는 최소 21세부터 음주가 가능하도록 법안을 제정한 것이다.
(즉, 21세라는 'treatment가 적용되는 기준'을 넘기 전과 넘기 후의 데이터가 있을 것이다)
결국 control group으로 여겨지는 그룹은 없으며, 배정변수라는 개념을 통해 자연적으로 실험과 같은 환경이 구성된다.
여기서 처치를 결정하는 변수는 '배정변수'(Running Variable) 라고 하며, 처치 여부가 결정되는 배정변수의 값을 '임계값'(threshold)라고 한다. '대역폭'(Bandwidth)은 배정변수 전후로 얼마까지 인과효과 추정에 활용할 것인지의 너비이다.
즉, MLDA로 설명하자면?
- 배정변수(Running Variable): 연령 (21세를 넘느냐, 안넘느냐)
- 임계값(Threshold): 21세 (배정변수가 구분되는 값)
- 대역폭(Bandwith): 얼마나 전후까지 분석에 볼 것인가? 예를 들면, +-3세까지도 차이가 없을 것인가?
(원래 전후 샘플(+-1세)까지는 차이가 없다고 가정함)
- 종속변수 Y는 나이별 사망률
→ 두 그룹 간의 사망 여부를 단순히 비교하는 경우 연령과 파생되는 다양한 영향이 포함되어 명확한 인과 효과 추정이 어렵다.
→ 애초에 두 그룹의 특성이 다르다!
회귀불연속의 중요한 가정
- treatment가 오로지 running variable(배정변수)에 의해 결정된다!
위에서는 treatment와 running variable을 다소 혼용해서 썼지만, 이해하자면 MLDA이 적용되는 기준 연령(배정변수)로 인해 적용되기 전에는 treatment 상태가 0, 적용되고 난 후에는 treatment 상태가 1이라고 이해하면 된다.
따라서 아래의 논리를 주장할 수 있다.
- Continuous assumption: 배정 변수에 의해 처치되지 않았다면(이를 Conterfactual, 반사실적이라고 부름) 결과 변수는 배정 변수 임계값 근방에서 단절이 일어나지 않고 연속적일 것이다.
- 즉, 처치를 받은 그룹의 처치를 받지 않았을 때의 결과를 처치를 받지 않은 부분의 연결선으로 간주할 수 있다는 것이다.
아래 오른쪽 그림을 보면 이해하기 쉽다. MLDA라는 쇼크가 없었다면 파란 선처럼 쭉~ 이어졌을 것이라는 뜻임.
하지만 쇼크는 일어났기 때문에 왼쪽 그림처럼 점프가 발생한다고 가정하는 것임.
배정변수 특성에 따른 RD의 종류
- 계단형 회귀 불연속 (Sharp RD): 배정변수의 임계값 전후로 처치 여부가 명확히 정해지는 경우 (값이 0, 1로 명확히 나뉨)
- 경사형 회귀 불연속 (Fuzzy RD): 배정변수의 임계값 전후로 처치 여부가 정해질 확률이 변하는 경우 (처치 확률, 강도가 바뀜)
RD의 핵심, 배정변수와 대역폭
[1] 배정변수 (Running Variable)
- Parametric : 선형, 비선형 등 데이터를 잘 나타내는 식을 구해서 볼 것인가
- Nonparametric : 단순 평균내서 볼 것인가
[2] 대역폭 (Bandwidth)
- 기본적으로 대역폭을 좁히는 것이 좋긴하지
- 대신 좁히면 샘플 사이즈가 적어지는 Trade-off 가 발생함 (e.g., 분석 대상 ±3살 vs ±1살)
RD의 가정을 검증하는 방법
즉, True Model을 알 수 없기 때문에 Sensitivity Test가 신뢰도 형성에 중요한 역할을 한다. 1차식 ~ 3차식까지 식을 만들어서 피팅해보는 식으로 대부분의 연구에서 접근을 취하고 있다.
Identification을 위해서, 2가지에 대해서 Sensitivity Test를 진행하게 된다.
- 대역폭 (Bandwidth)
- 회귀 모형 (Functional form)
결론은?
즉, 목표는 하나의 완벽한 대역폭을 찾아내기보다 특정한 대역폭을 선택했을 때 도출되는 결과가 우연에 의한 것이 아님을 입증하는 것이다.
아직 공부중... 어렵당
'Data Science > Econometrics' 카테고리의 다른 글
[Econometrics, 계량경제학] 고정 효과(Fixed Effect) 사례 분석 (3) | 2024.10.29 |
---|---|
[Econometrics, 계량경제학] 데이터 구조와 고정 효과(Fixed Effect) (0) | 2024.10.28 |
[Econometrics, 계량경제학] OLS와 BLUE (1) | 2023.11.21 |
[Econometrics, 계량경제학] 편향(bias) (0) | 2023.09.17 |