최근 마케팅 논문을 주로 읽다보니, 계량경제학을 매번 접하게 된다.
그리고 거의 모든 회귀식에서 빠짐없이 나오는 항이 있다. 바로 fixed effect와 random effect이다.
이 Fixed vs Random의 차이를 알려면, 우선 회귀식의 기본부터 알아야 하기 때문에 선형회귀를 설명하려한다.
당장 지난주에 본 논문에서의 회귀식을 살펴보자.
$ After_{ijt} $가 Star와 Review에 영향을 미치는지, 그 때 Tripadvisor(ij)항의 조절효과가 있는지 분석하는 회귀식임을 파악할 수 있다.
통제변수와 Error term이 있으며, 각 항마다 Coefficient 베타항을 확인할 수 있다. 완전 단순한 선형회귀식은 아니고 다중회귀식이긴한데, 암튼 선형회귀식임은 맞다. 비선형은 아니니까.
다음과 같은 단순 회귀식이 있다고 하자.
$ y_{i} = \beta + \alpha \cdot x_{i} + \epsilon $
이게 원래 데이터의 분포라고 했을 때,
아래는 이 데이터 분포를 예측하는 식이다.
$ \widehat{y_{i}} = \beta + \alpha \cdot x_{i} $
이때, 예측 회귀선과 실제 데이터 사이의 차이는 다음과 같다.
$ \left| y_{i} - \widehat{y_{i}} \right| $
이 차이가 가장 작을 때, 이 회귀선이 가장 유의미하지 않겠는가? 이 차이의 총 합이 바로 SSE가 되는 것이다.
- SSE[Sum of Squared Error]란? 이러한 오차의 제곱 합을 의미한다.
- OLS[Ordinary Least Square, 최소제곱추정법]란? SSE의 최소값을 갖는 회귀선의 (\alpha)와 ( \beta)를 찾는 추정방식이다.
- BLUE[Best Linear Unbiased Estimator, 최적 선형 불편 추정량]란? 회귀 계수의 표준 오차가 가장 작고[Best] 모평균과 표본평균이 같은[unbiased] 선형[Linear] 회귀 추정량
이러한 OLS가 BLUE가 되기 위해서는 다음과 같은 가우스-마코프 조건들을 만족해야 한다.
이 가정을 만족했을 때, 비로소 적절한 선형회귀선을 그릴 수 있다.
- 선형성: 회귀모델은 종속변수 (Y)와 독립변수 (X_{1}, X_{2}, ... X_{k}) 간의 선형 관계를 가정
- 오차항의 기대값은 0: 모든 독립변수에 대해 오차항의 기대값이 0이어야 함. 즉, (E(\epsilon _{i})=0)
- 등분산성[동분산성]: 모든 독립변수에 대해 오차항의 분산이 일정해야 함. 즉, (Var(\epsilon _{i})=\sigma ^{2})
- 오차항 간의 독립성: 서로 다른 관측치에 대한 오차항은 상관관계가 없어야 함. 즉, (Cov(\epsilon _{i},\epsilon _{j})=0) for (i≠j)
- 다중공선성의 부재: 독립변수들 간에 높은 상관관계가 없어야 함. 독립변수들이 서로 선형적으로 독립적이어야 함.
+ [확장] 오차항의 정규분포: 오차는 정규분포로 나타나야 한다.
이러한 선형 회귀 모델은 결국 '원래 데이터를 얼마나 설명가능한가'가 포인트가 된다.
이러한 설명력은 오차를 줄일수록 높아진다.
회귀분석에서 발생하는 차이로는 오차와 잔차가 있다.
- 오차[Error]: 모집단에서 회귀식을 통해 얻는 실측값-예측값, 실제값은 알 수 없어서 모델 불완전성과 실제 데이터의 변동성을 설명
- 잔차[Residual]: 표본집단에서 회귀식을 통해 얻는 실측값-예측값, 데이터 포인트가 회귀선에 얼마나 가까운가를 설명
결국 실측값[회귀분석에서의 실제값] = 예측값 + 예측되지 않은 값[잔차]의 합이다.
- TSS[Total sum of squares]: 전체 y의 변화량
- ESS[Explained sum of squares]: 회귀식으로 설명된 y의 변화량
- RSS[Residual sum of squares]: 회귀식으로 설명되지 않은 y의 변화량
결국 전체 y의 변동량에서 설명가능한 y 변동량을 나눈 값이 설명가능한 정도, 회귀분석 모델의 설명력[(R^{2})]가 된다.
이 결정계수(R^{2})는 설명력이 최대일 때 1, 최소일 때 0이 된다.
결정계수는 독립변수가 추가될수록 높아진다. 따라서 수정된 (R^{2})값을 활용하기도 한다.
오늘은 회귀분석의 기본 가정과 OLS, BLUE를 알아보았다.
다음 시간엔 random effect와 fixed effect를 알아보자.
'Data Science > Econometrics' 카테고리의 다른 글
[Econometrics, 계량경제학] 고정 효과(Fixed Effect) 사례 분석 (3) | 2024.10.29 |
---|---|
[Econometrics, 계량경제학] 데이터 구조와 고정 효과(Fixed Effect) (0) | 2024.10.28 |
[Econometrics, 계량경제학] RDD(불연속 회귀 설계) (0) | 2023.09.17 |
[Econometrics, 계량경제학] 편향(bias) (0) | 2023.09.17 |