🛠머신러닝

선형회귀(Linear Regression) 밑바닥부터 이해하기

빅데희터 2024. 4. 21. 18:04
반응형

0. 선형회귀

'파라미터'와 '종속변수'가 선형 관계인 모형을 선형회귀(Linear Regression) 모형이라고 한다.

* 파라미터의 의미

예시)
population model : 연봉 = b0 + b1교육정도 + u
E(연봉|교육정도) = b0 + b1교육정도
(교육정도에 따른 연봉의 평균값)

이때,
b0 = 1, b1 = 0.5, 교육정도 = 10이라고 가정
E(연봉|교육정도) = 1 + 0.5*10 = 6

해석)
교육정도가 10인 사람들의 평균연봉이 6이다.
(즉, 교육정도가 10인 사람들은 평균적으로 6을 번다.)
(주의, 교육정도가 10인 모든 사람들의 연봉이 6이라는 의미가 아님)
* 다음 중, 선형회귀 모형이 아닌 것은?

1. y = b0 + b1X1 + b2X2
2. y = b0 + b1X2 + b2X^2
3. y = 1/b0 + 1/b1*X1

정답 : 3번 

 

 

1. 선형회귀의 형태

선형회귀는 모형에 있는 독립변수의 수에 따라 단순 선형회귀와 다중 선형 회귀로 나눌 수 있다.

 

1-1. 단순 선형 회귀 식

단순 선형회귀란, 독립변수(X)가 한 개인 선형회귀를 의미하며 다음과 같이 나타낼 수 있다.

 

y = b1 + b2X2 + u

*u(에러항) : 모형에 명시적으로 포함되어 있는 독립변수 이외에, 종속변수에 영향을 주지만 모형에는 포함되어있지 않은 변수들이 모두 에러항에 포함되어 있는 것

 

1-2. 다중 선형 회귀 식

다중 선형 회귀란, 독립변수가 두 개 이상인 선형회귀를 의미하며, 다음과 같이 나타낼 수 있다.

 

 y = b0 + b1X1 + b2X2 + u

 

 

 

2. 선형회귀를 사용하는 목적

우리가 선형회귀를 통해 궁극적으로 알고자 하는 것은 다음과 같다.

 

- 모집단에 존재하는 독립변수(X)와 종속변수(y)와의 관계를 알기 위해 사용한다.

- 조금 더 구체적으로는 모형에 포함된 다른 독립변수의 영향을 통제한 상태에서, 특정 독립변수(X)의 값이 1만큼 증가할 때, 종속변수(y)의 값이 얼마큼 달라지는지를 파악하기 위해 사용한다.

- 이러한 관계는 모형의 파라미터들 (b0, b1, b2등)에 의해 정의된다.

- population model이 y = b0 + b1X1 + b2X2 + u일 때, b0, b1, b2는 모집단에 존재하는 독립변수와 종속변수의 관계를 정의하는 역할을 하고, 이것이 우리가 연구를 통해 파악하고자 하는 모집단의 특성(모수)이 된다.

- 편향이 있는 추정식으로 추정치를 계산하면, 그 값이 모수와 같이 않을 수 있기 때문에, 보통 OLS(머신러닝에서의 cost function)를 사용하여 파라미터 b0과 b1을 추정한다. OLS는 관측된 데이터를 가장 잘 설명하는 선을 찾기 위해 잔차(실제 값과 예측값 사이의 차이)의 제곱합을 최소화하는 추정식이다.

 

 

 

3. 파라미터의 값을 찾는 법 (추정하는 법)

- Sample data를 이용하여 파라미터(bi)/모수를 추론한다.

- population model : y = b0 + b1X1 + u

 

단계 1) 가설 설정 (모수에 대한 가설 설정)

해당 변수(X)가 y와 관련성 있는지를 알아보기 위해 귀무가설과 대립가설을 설정한다.

 

귀무가설 : b1 = 0 (즉, X1과 y는 아무런 관계가 없다는 의미)

대립가설 : b1 ≠  0 (X1와 y가 어떠한 관계를 갖는다 : 우리가 주장하고 싶은 것)

 

 

단계 2) 추정식을 sample data에 적용하여 모수에 대한 추정치 계산

1단계에서 설정한 가설을 검정을 하기 위해서는 모수에 대한 추정식이 필요하다. 추정식은 여러 가지가 있을 수 있는데 그중, 편향이 없는 추정식을 'OLS(Ordinary Least Squares)'라고 하며, OLS를 sample data에 적용하여 모수에 대한 추정치를 계산하게 된다.(4-1 참고) 이때 계산된 추정치가 0(모수의 값)과 차이가 많이 날수록 귀무가설을 기각할 확률이 증가한다.  

 

 

단계 3) 추정치 & 추정식의 확률 분포를 이용해서 귀무가설 기각 여부 결정

그럼, 추정치가 0과 얼마큼 차이가 나야 확실하게 귀무가설을 기각할 수 있는 것인가? 이에 대한 판단을 하기 위해 추정식의 sampling distribution가 사용되는 것이다. 이때, 추정식의 sampling distribution은 귀무가설이 맞다는 가정하에서의 분포이며, 샘플 사이즈가 커지면 중심극한정리에 의해 OLS가 정규분포를 따르게 된다. 

*중심극한정리 : N(샘플수)가 커지면 X 바의 분포가 정규분포를 따른다. 

 

'추정식 ~ N(E(추정식), 분산(추정식))'

 

다만, 이 정규분포를 그대로 사용하는 게 아니라, 보다 계산을 용이하게 하기 위해 표준화 과정을 거치게 된다. 

(표준정규분포)Z = (추정치-평균) /  SD(추정치)

추정치에서 평균을 뺀 값을 추정치의 표준 편차로 나눠주게 되면 된다.

 

이때, 회귀 분석에서는 에러항을 직접 관찰할 수 없기 때문에 샘플데이터로 이를 추정하게 되며, 이러한 이유 때문에 표준 정규분포 대신 t 분포를 사용하게 된다. t의 절댓값이 1.96보다 크면 해당 값이 기각영역 안에 있다는 것을 의미하고, 이를 근거로 귀무가설을 기각할 수 있다.

 

 

 

4. 가설 검정에서 중요한 두 가지

4-1) 편향이 없는 추정식(unbiased estimator, b ̂1 )을 위한 조건

OLS가 언제나 편향이 없는 것은 아니고,

편향이 없는 추정식이 되기 위해서는 모집단에 대해 다음의 두 가정을 만족해야 한다.

 

모집단 모형 : y = b0 + b1X + u 일 때, 

 

1) E(u) = 0

:에러항의 평균이 '0'(즉, 각 관측치들의 에러를 더하면 평균적으로 0이 된다.)

2) E(u|X) = E(u) 

:이는 X와 u가 서로 독립적인 관계, 상관성이 없다는 것을 의미한다. (Cov(u, X) = 0)

결론적으로 E(u|X) = E(u) = 0 

E(u|X) = 0  -> Cov(u, X)=0  -> E(uX) = 0

 

 

위의 두 조건을 만족하는 OLS 추정식(편향이 없는 좋은 추정식)은 다음과 같이 나타낼 수 있다.

분자 : Cov(X, y) /  분모 : Var(X)

 

 

 

4-2) 추정식의 확률분포

- 평균이 0인 샘플링 분포를 사용

- 표준화를 하기 위해서는 다음과 같은 식으로 표준화를 할 수 있다.

 

표준화 식

- 추정치 (샘플데이터에 추정식을 적용해서 나온 값)

- 추정식의 평균(귀무가설이 맞다는 가정하에서의 평균이므로, 모수의 값)

- 표준 오차

 

- 표준화를 위한 식에서, 표준오차에 대한 값을 알 수 없기 때문에, 표준오차를 구해야 한다.(표준오차는 분산에 루트를 적용한 것) 따라서 이 표준오차를 구하기 위해 추정식의 분산을 알아야 한다.

 

 

 

5. 등분산가정 (오차항)

- Var(u│X)= σ^2

 

5-1. 정의

- '에러텀(u)의 분산이 독립변수가 어떤 값을 취하는지에 영향을 받지 않는다'는 가정,

- 오차의 분산이 독립변수와 관계없이 일정하다.

- 회귀 분석에서, 등분산성은 모델의 추정치가 일관되고 신뢰할 수 있도록 하는데 중요하다. 

 

5-2. 사용 이유

1) 추정식의 분산을 쉽게 계산하기 위해

2) 분산이 작은 추정식을 사용하기 위해

- 즉, 선형회귀 분석에서는 추정식의 분산을 구하기 위해 오차항에 대한 등분산가정을 사용한다.

 

5-3. 설명 

추정식의 분산을 알고 싶은데, 알 수 없으니 에러텀의 분포가 추정식의 분포와 같다고 (등분산)이라고 가정하는 것이다. 우리가 알고자 하는 추정식의 분산은 다음과 같은 형태로 나타낼 수 있고, 이를 통해 추정식의 표준화에 필요한 표준 오차를 알 수 있는 것이다.

추정식의 분산

 

하지만 이때, 분자에 해당되는 것은 모집단에 존재하는 에러항의 분산이기 때문에 우리가 실제로 알 수 없다. 따라서 샘플 데이터를 활용하여 계산해야 한다.  이렇게 샘플데이터로 추정된 표준 오차로 표준화를 하게 되면, 아래와 같은 t분포를 따르게 된다.

t분포

 

t분포는 평균은 항상 0이며, 분산의 크기는 자유도에 따라서 달라진다. 위의 식에서 (n-k-1)가 자유도를 나타내고, n은 샘플사이즈, k는 모형에 존재하는 독립변수의 수를 의미한다. 샘플 사이즈가 클수록 t분포의 분산이 작아져서, (분모인 분산의 값이 작아지면 전체적인 t값은 커짐) 표준 정규분포와 유사해진다.  t값이 클수록 해당 변수의 영향력이 높아진다는 거을 의미하고 귀무가설을 기각할 확률이 높아진다.(위의 그래프에서 검은색 그래프에 해당될수록 귀무가설을 기각할 확률이 높아지는 것)

 

샘플사이즈 -> t분포의분산(전체적인 t값 ) -> 귀무가설을 기각할 확률

 

 

5-4. Normality of the error term

샘플 사이즈가 큰 경우에는 추정식이 정규분포를 따르지만, 샘플 사이즈가 작은 경우(30보다 작은 경우)에는 추정식이 정규 분포를 따르지 않을 수 있다. 추정식이 정규분포를 따르지 않는 경우, 이를 표준화했을 때에도 표준 정규분포나 t분포가 되지 않을 것이다. 따라서 샘플 사이즈가 작은 경우에도, 추정식이 정규분포를 따르기 위해서는 추가적인 가정이 필요한데, 그게 바로 '에러항의 분포가 정규분포를 따른다'는 가정이다. 

 

- 편향이 없는 추정식이 다음과 같을 때,

 

에러항만 변수이고, 나머지 부분은 모두 상수이다.

따라서, 에러항이 어떤 분포로 형성되어 있는지가 추정식의 분포(분산)와 관련이 있게 된다.

반응형