💻프로그래밍/R

[R통계] ISLRv2 Introduction to Statistical Learning : exercise solutions - 3강 선형회귀 (14번 다중공선성 문제 풀이)

빅데희터 2023. 10. 11. 19:25
반응형

14번 문제풀이

 

(a) R에서 다음 명령어를 실행해라. 마지막 줄은 y가 x1과 x2의 함수인 선형 모델을 생성하는 것에 해당한다. 이때 회귀 계수들은 무엇인가?

(Perform the following commands in R. The last line corresponds to creating a linear model in which y is a function of x1 and x2. Write out the form of the linear model. What are the regression coefcients?)

set.seed(1)
x1 = runif(100)
x2 = 0.5*x1 + rnorm(100) / 10
y = 2 + 2*x1 + 0.3*x2 + rnorm(100)

 

=2, β2 = 0.3

 

 

 

 


(b) x1과 x2는 어떤 상관관계를 가지고 있는가? 이 변수들 사이의 상관관계를 나타내는 산점도를 그려라.

(What is the correlation between x1 and x2? Create a scatterplot displaying the relationship between the variables.)

plot(x1, x2)    #x1와x2사이의 산점도 그리기

cor(x1, x2)    #x1과 x2의 상관계수 확인


[1] 0.8351212

답변 : 두 연속변수 x1와 x2의 관계를 시각적으로 파악하기 위해 산점도 그래프를 그려봤을때 위의 그래프와 같이 양의 선형관계가 있음을 확인했으며, 이를 조금 더 구체적인 수치로 확인해보기 위해 상관계수를 출력해 보았을 때 0.83의 값이 나왔다. 따라서 두 변수는 강한 양의 상관성을 가진다는 것을 알 수 있다. 다만, 여기서 두 변수가 상관성이 있다는 의미이지 어떠한 인과관계를 나타내는 것은 아니다.

 

 

 

 


(c) x1과 x2를 이용하여 y를 예측하는 최소제곱회귀 적합을 수행하고 얻은 결과를 설명하여라. βˆ0, βˆ1, βˆ2?는 무엇이며, β0, β1, β2와는 어떤 관련이 있는가? 그리고 귀무가설 H0 : β1 = 0을 기각할 수 있는가?  귀무가설 H0 : β2 = 0은 기각할 수 있는가?

(Using this data, ft a least squares regression to predict y using x1 and x2. Describe the results obtained. What are βˆ0, βˆ1, and βˆ2? How do these relate to the true β0, β1, and β2? Can you reject the null hypothesis H0 : β1 = 0? How about the null hypothesis H0 : β2 = 0?)

 

summary(lm(y ~ x1 + x2))

y ~ x1 + x2  :y를 종속변수로하고, x1, x2를 독립변수로하는 선형모델을 의미함

lm(  )  : 'linear model'의 약자로, 선형 회귀 모델을 적합시키는 함수

summary( )  : 주어진 객체의 요약 정보 반환

 

 

<출력값>

Call:
lm(formula = y ~ x1 + x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8311 -0.7273 -0.0537  0.6338  2.3359 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.1305     0.2319   9.188 7.61e-15 ***
x1            1.4396     0.7212   1.996   0.0487 *  
x2            1.0097     1.1337   0.891   0.3754    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.056 on 97 degrees of freedom
Multiple R-squared:  0.2088,	Adjusted R-squared:  0.1925

해석

 

1. Call(모델 호출)

- lm(formula = y ~ x1 + x2)는 y를 종속변수로 하고, x1,x2를 독립변수로 하는 선형 모델을 접합했다는 것을 의미

 

2. Residual(잔차)

- 실제 관측값과 모델에 의한 예측값 간의 차이를 의미 

- 잔차의 분포에서, 중앙값이 -0.0537로, 0에 가까움 이는 모델이 중앙값 부근에서는 꽤 잘 예측했다는 것을 의미

- 그러나 최소와 최댓값이 각각 -2.8311과 2.3359를 나타내므로, 어떤 예측에서는 큰 오차가 발생했음을 알 수 있다.

 

3.Coefficients

- (Intercept) :y절편을 의미하며 그 값이 2.1305이다.

- x1의 계수는 1.43936으로, x1이 1 단위 증가할 때마다 y는 약1.4396만큼 증가한다는 것을 의미하며 이때 p-value가 0.05보다 작으므로 x1는 y에 유의한 영향을 미친다는것을 알 수 있다.

- x2의 계수는 1.0097이며, 이는 x2가 1단위 증가할때마다 y가 약 1.0097만큼 증가한다는것을 의미한다. 그러나 이때 p-value가 0.05보다 크기 때문에 x2는 y에 유의한 영향을 미치지 않는다고 볼 수 있다.

 

4. Multiple R-squared(결정계수)

- 결정계수 값이 0.2088이므로 이 모델이 데이터의 약 20.88%의 변동을 설명한다는 것을 의미한다.

- Adjusted R-squared 값은 0.1925이므로, 독립변수의 수를 고려할 때 이 모델이 데이터의 약 19.25%의 변동을 설명한다는 것을 의미한다.

 

5. F-statistic(F통계량)*

- F-통계량은 12.8이고 p-value는 1.164e-05로 매우 작은 값을 나타낸다. 따라서 이는 모델 전체가 유의하다는 것을 의미한다.

 

*F-통계량은 회귀 모델의 적합도를 평가하기 위해 사용되는 통계량으로, 특히 전체 회귀 모델이 유의미한지 검정하는 데 사용된다. F-통계량 값이 크면, 회귀모델이 데이터의 변동을 잘 설명하고 있다는 것을 의미하며 이 경우 모델은 통계적으로 유의미하다고 볼 수 있다. 또한 F-통계량의 p-value가 작으면 회귀 모델이 데이터에 대해 좋은 적합도를 가지고 있음을 의미한다. 단, F-통계량이 유의미하다고 해서 모든 독립변수가 유의미하다는 것은 아니며, 개별 변수 유의성은 t-통계량을 통해 판단해야 한다.

 

 

결론적으로

이 모델은 데이터의 약 20%의 변동을 설명하며, 

x1은 y에 유의한 영향을 미치나, x2는 유의한 영향을 미치지 않는다.

모델 전체는 유의하다고 볼 수 있다.

 

 

답변: βˆ0, βˆ1,βˆ2는 최소제곱회귀분석을 통해 얻은 추정치이다. 구체적인 값을 보자면 βˆ0의 추정치는 (intercept) 2.1305로, 이는 x1과 x2가 모두 0일 때의 y의 예측값이다. βˆ1 추정치 는 x1에 대한 계수로 1.4396이며, 이는 x1이 1단위 증가할때 y의 변화량을 나타낸다. βˆ2의 추정치는 1.0097로 이는 x2가 1단위 증가할때 y의 변화량을 나타낸다.  

β0, β1,β2는 회귀모델의 실제 계수로, 이 값은 알려지지 않았으며 데이터를 가지고 이를 추정하고자 하는것이다.

그렇다면 귀무가설 H0 : β1 = 0을 기각할 수 있지를 보았을때, x1에 대한 p-value는 0.0487이다. 이는 0.05보다 작기 때문에 해당 귀무가설을 기각할 수 있다. 즉 x1은 y에 유의하게 영향을 미친다고 볼 수 있다.

반면, 귀무가설  H0 : β2 = 0을 기각할 수 있는지 확인해봤을때, x2에 대한 p-value는 0.3754로 0.05보다 큰 값이다. 따라서 해당 귀무가설은 기각할 수 없으며, x2는 y에 유의하게 영향을 미치지 않는다는것으로 해석할 수 있다.

 

 

 

 


(d) x1만을 사용하여 y를 예측하는 최소제곱회귀 적합을 수행하고 결과를 설명하라. H0 : β1 = 0을 기각할 수 있는가?

(Now ft a least squares regression to predict y using only x1. Comment on your results. Can you reject the null hypothesis H0 : β1 = 0?)

 

summary(lm(y ~ x1))
Call:
lm(formula = y ~ x1)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.89495 -0.66874 -0.07785  0.59221  2.45560 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.1124     0.2307   9.155 8.27e-15 ***
x1            1.9759     0.3963   4.986 2.66e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.055 on 98 degrees of freedom
Multiple R-squared:  0.2024,	Adjusted R-squared:  0.1942

 

답변 : 분석결과를 보면, x1의 p-value는 2.66e-06이며, 이는 0.05보다 훨씬 작은값이므로 해당 귀무가설을 기각할 수 있다. 결론적으로 x1는 y에 대해 통계적으로 유의미하게 영향을 미친다는것을 알 수 있다.

 

 

 

 


(e) x2만을 사용하여 y를 예측하는 최소제곱회귀 적합을 수행하고, 결과를 설명하라, 또한 귀무가설

 H0 : β2 = 0을 기각할 수 있는가?

(Now ft a least squares regression to predict y using only x2. Comment on your results. Can you reject the null hypothesis H0 : β1 = 0?)

 

summary(lm(y ~ x2))
Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.62687 -0.75156 -0.03598  0.72383  2.44890 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.3899     0.1949   12.26  < 2e-16 ***
x2            2.8996     0.6330    4.58 1.37e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.072 on 98 degrees of freedom
Multiple R-squared:  0.1763,	Adjusted R-squared:  0.1679

 

답변 : 귀무가설 H0 : β2 = 0은 x2의 계수가 0이라는 의미로, 즉 x2가 y에 영향을 주지 않는다는 것을 의미한다. x2에 대한 p-valuesms 1.37e-05로 0.05보다 훨씬 작은값을 나타낸다. 따라서 해당 귀무가설을 기각할 수 있고, 결론적으로 x2만을 사용하여 y를 예측하는 최소제곱회귀 적합을 수행했을때, x2는 y에 대해 통계적으로 유의한 영향을 미친다고 볼 수 있다.

 

 

 

 


(f) (c)-(e)에서 얻은 결과가 서로 모순되는가?

(Do the results obtained in (c)–(e) contradict each other? Explain your answer.)

 

답변 : 모순되지 않는다.

 

 

 

 


(g) 잘못 측정된 관측치를 추가로 하나 얻는다고 가정해보자. 이 새로운 데이터를 사용하여 (c)에서 (e)까지의 선형 모델을 다시 적합하여라. 이 새로운 관측치는 각 모델에 어떠한 영향을 끼치는가? 각 모델에서 이 관측치는 이상치인지, 높은 레버리지 포인트인지 또는 둘 다에 해당하는지 설명하라.

(Now suppose we obtain one additional observation, which was unfortunately mismeasured. Re-ft the linear models from (c) to (e) using this new data. What efect does this new observation have on the each of the models? In each model, is this observation an outlier? A high-leverage point? Both? Explain your answers.)

 

x1 <- c(x1, 0.1)
x2 <- c(x2, 0.8)
y <- c(y, 6)

summary(lm(y ~ x1 + x2))
Call:
lm(formula = y ~ x1 + x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.69309 -0.68184 -0.04583  0.75224  2.29389 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.2665     0.2303   9.840 2.45e-16 ***
x1            0.1671     0.5246   0.318    0.751    
x2            3.1371     0.7703   4.073 9.37e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.079 on 99 degrees of freedom
Multiple R-squared:  0.246,	Adjusted R-squared:  0.2308

답변 : β1 추정치는 0.1671이며, 이때의 p-value는 0.751이다. 따라서 x1는 y에 유의미하게 영향을 미치지 않는다. β2 추정치는 3.1371이며, 이때의 p-value는 9.37e-05이므로 x2는 y에 통계적으로 유의미한 영향을 미친다고 볼 수 있다. (새로 관측치가 추가되기 전과 비교했을때 x1,x2에 대해 유의미한 정도가 달라짐)

답변 : 

1) Residuals vs Fitted

이 그래프는 적합된 값에 대한 잔차를 나타내고, 선을 기준으로 모든 점들이 무작위로 퍼져있어야 선형 회귀 모델의 가정 중 하나인 등분산성이 완벽하게 만족되는것이다. 이 그래프에서는 무작위로 퍼져있긴 하지만, 몇몇의 점들은 조금 멀리 떨어져있는 모습을 보여, 완벽하게 등분산성이 만족되진 않을수도 있음을 나타낸다.

2) Q-Q Residuals 

Q-Q그래프는 잔차의 정규성을 검사하는데 사용되는 것으로, 대각선을 기준으로 점들이 이 선 가까이에 위치해 있다면 잔차기 정규 분포를 따르는것이다. 위의 그래프에서 몇몇 점들이 대각선에서 벗어나기 때문에 완벽하게 정규분포를 따르지 않을 수 있다는것을 나타낸다.

3)Scale-Location(Spread vs Level)

이 그래프는 잔차의 등분산성을 검사하는데 사용되며, 선을 기준으로 점들이 균일하게 퍼져있어야 한다. 위의 그래프에서는 대체로 고르게 퍼져있는 형태인것을 알 수 있다.

4)Residuals vs Leverage

레버리지는 각 관측치가 회귀 모델에 미치는 영향을 나타낸지표로, 높은 레버리지 값을 가진 관측치는 모델에 크게 영향을 미칠 수 있다. Cook's distance는 관측치가 모델에 미치는 영향의 크기를 나타낸것으로, 위의 그래프에서 102번 관측치는 높은 레버리지를 가지는것으로 보인다.(다만, 레버리지가 높다고해서 이것이 반드시 이상치인것은 아님)

 

 

*레버리지

- 선형 회귀 분석에서 각 관측치가 회귀 모델에 미치는 영향도를 나타낸 지표- 레버리지 값은 0에서 1사이의 값을 가지묘, 높은 레버리지 값을 가진 관측치는 해당 회귀선에 상대적으로 큰 영향을 미칠 수 있다.- 레버리지는 각 관측치의 독립 변수 값이 독립 변수들의 평균으로부터 얼마나 멀리 떨어져 있는지 측정한다.- 레버리지가 높은 관측치가 반드시 이상치인것은 아니다. 하지만 레버리지가 높은 관측치는 회귀선을 크게 바꿀 수 있기 때문에 주의해야한다. - 반면, 이상치는 레버리지가 높지 않을 수도 있지만, 모델의 잔차에 큰 영향을 줄 수 있다.

 

 

 

 

summary(lm(y ~ x1))
Call:
lm(formula = y ~ x1)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.8848 -0.6542 -0.0769  0.6137  3.4510 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.3921     0.2454   9.747 3.55e-16 ***
x1            1.5691     0.4255   3.687 0.000369 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.16 on 100 degrees of freedom
Multiple R-squared:  0.1197,	Adjusted R-squared:  0.1109

 답변 : β1의 추정치는 1.5691이며 이때의 p-value는 0.000369이다. 따라서 x1은 y에 통계적으로 유의미한 영향을 준다고 볼 수 있다.

 

 

답변: 

1)Residuals vs Fitted

그래프를 확인해보았을때, 선을 기준으로 점들이 무작위로 퍼져있는 형태를 보이고 있지만, 102번 관측치는 멀리 떨어져있다. 따라서 이 관측치는 이상치일 가능성이 있다.

2)Q-Q Residuals

점들이 대각선을 따라 분포해있긴하지만, 끝부분으로 갈수록 특히 101, 102번 관측치들은 대각선에서 크게 벗어나있으므로 잔차가 완벽하게 정규분포를 따르지 않을 수 있다.

3)Scale-Location

선을 기준으로 점들이 균등하게 퍼져있지만 102번은 조금 벗어나 있는 형태를 보인다.

4)Residuals vs Leverage

102번 관측치는 높은 레버리지와 잔차값을 가지고 있으며 이 관측치가 모델에 큰 영향을 미치고 있다고 생각할 수 있다.

 

 

 

 

summary(lm(y ~ x2))
Call:
lm(formula = y ~ x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.66396 -0.67794 -0.06181  0.75541  2.32512 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.3085     0.1879   12.28  < 2e-16 ***
x2            3.2981     0.5786    5.70 1.21e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.074 on 100 degrees of freedom
Multiple R-squared:  0.2452,	Adjusted R-squared:  0.2377

답변 : x2의 회귀계수인  β1의 추정치는 3.2981이며 이때의 p-value는 1.21e-07이다. 따라서 x2는 y에 대해 통계적으로 매우 유의미한 영향을 미친다.

 

답변:

1)Residuals vs Fitted

점들이 대체로 수평선 주변에 있지만, 21번과 같은 몇몇의 점들은 수평선에서 크게 벗어나있으며, 이 관측지들이 이상치일 가능성이 있다.

2)Q-Q Residuals

잔차의 정규성을 보기위한 Q-Q plot를 봤을때 21번을 포함한 몇몇 점들이 대각선에서부터 떨어져있지만, 대체로 대각선에 가깝게 위치하고 있다

3) Scale-Location

점들이 선을 기준으로 대체로 균일하게 분포하고 있지만 몇몇 점들이 선에서 벗어나있기때문에 잔차의 분산이 일정하지 않을수도 있을것이다.

4)Residuals vs Leverage

21번 관측치는 높은 레버리지와 큰 잔차를 가지고 있기에 회귀 모델에 크게 영향을 미칠 수 있음을 나타내고, 18번 관측치의 경우, 레버리지는 높지만 잔차가 크지 않기 때문에 회귀 적합에 큰 영향을 미치지 않을 수도 있을것이다.

반응형