선형 회귀 모델의 설명력과 통계적 유의성을 판단하는 기준
1. 선형 회귀 모델의 설명력
1-1. R^2
선형 회귀 모델의 설명력은 R^2으로 평가하며, R^2은 다음과 같이 나타낼 수 있다.
R^2 = 1 - (SSR / SST) = (SSE / SST)
R^2은 종속변수(y)의 전체 분산(variation)중에서, 모형에 의해 설명되는 정도를 의미하며, 0~1 사이의 값을 가진다. R^2가 1에 가까운 값이 될수록 해당 선형 회귀 모델의 설명력이 좋다는 의미이다.(모델이 데이터의 변동을 잘 설명하고 있다는 것을 의미함)
1) SST (Total Sum of Squares)
- 샘플 데이터에 존재하는 종속변수(y)의 전체 흩어진 정도
- 전체 데이터의 변동성
- 모든 데이터 포인트가 데이터의 평균에서 얼마나 멀리 떨어져 있는가
- (모델없이) y가 얼마나 퍼져있는지를 나타내는 지표
2) SSR(Residual sum of squares)
- 종속변수가 갖는 전체 흩어진 정도 중에서 내 모형이 데이터를 설명하지 못하는 정도
- 회귀선이 실제 데이터 포인트들과 얼마나 차이 나는지를 나타낸 값
- 값이 작을수록 모델의 적합도가 높은것
3) SSE(Explained sum of squares)
- 회귀 모델이 얼마나 데이터의 변동성을 설명하고 있는지에 대한 값
-이 값이 클수록 모델이 데이터를 잘 설명하고 있는 것
이 세 가지 지표는 다음과 같은 관계를 갖는다
SST = SSR + SSE
1-2. Adjusted R^2 (adj R^2)
- 독립변수가 추가될 때마다 해당 독립변수가 모델에 유의미한 기여를 하지 않더라도 R^2의 값이 증가하는 현상이 발생한다. (즉, 독립변수의 수가 증가하면 R^2는 절대로 감소되지 않는다) 따라서 이러한 한계를 보완하기 위해, 독립변수의 수를 고려한 adjusted R^2의 값을 함께 제공하는 것이 필요하다.
2. 모형의 설명력의 통계적 유의성
다음으로는, 우리가 만든 선형회귀 모델이 상수항만 있는 모형(즉, 설명력이 0인 모형)에 비해 얼마나 더 설명력이 좋은지, 그리고 통계적으로 유의미하게 좋은지 알아보고자 한다.
2-1. 가설 설정
모형의 설명력의 통계적 유의성을 확인하기 위해 가설검정을 수행하게 되고, 이때의 귀무가설과 대립가설은 다음과 같이 설정된다.
-> 귀무가설 : 우리가 제시한 모형이 상수항만 있는 모형의 설명력과 동일하다
-> 대립가설 : 우리가 제시한 모형이 상수항만 있는 모형보다 설명력이 좋고, 통계적으로 유의미하다.
2-2. F-test
가설을 설정했다면, 모델의 통계적 유의미성은 F-test로 파악하게 된다.
F = MSM / MSR
F분포는 '모형에 의해 설명되는 분산 / 모형에 의해 설명되지 못하는 분산'값으로 표현되며, 이는 F분포를 따르기 때문에, F-test라고 부른다. F값이 커질수록 귀무가설(내가 만든 회귀 모델이 상수항만 있는 모형과 설명력이 같다)을 기각할 확률이 증가한다. (종속변수(y)의 전체 분산은 (모형에 의해 설명되는 분산 + 모형에 의해 설명되지 못하는 분산)으로 표현될 수 있는데, 이중 모형에 의해 설명되는 분산이 커질수록 모형의 설명력이 커지게 된다. )
그렇다면, F값이 얼만큼 커야 귀무가설을 기각할 수 있는가?
F-test에서도 t-test와 마찬가지로 기각영역 설정하게 되고, 일반적으로 0.05의 유의 수준값과 동일하게 설정한다. 다만, F분포를 사용하는 경우에는 기각영역은 오른쪽 끝에만 설정되며, F값이 오른쪽으로 갈수록(커질수록) 기각영역 안에 존재할 확률이 증가하게 된다. 이때 F분포는 df1(모형에 있는 독립변수의 수)와 df2(샘플사이즈-파라미터수)에 따라 형태가 달라진다.