본문 바로가기

📄 연구

기초 통계(2) 평균(mean), 분산(variance), 공분산(Covariance)

반응형

 

수집한 데이터로 계산을 수행하여 얻은 값을 '통계량'이라고 하고, 이러한 통계량을 통해 대상을 이해하는 과정이 데이터 분석이다. 데이터에서 몇 가지 통계량을 계산하여 요약하면, 데이터가 어떻게 형성되어 있는지 특징짓는 일이 가능해지는데, 이를 기술 통계량 또는 요약 통계량이라고 한다.

 

 

* 대표적인 기술통계량

대표값(위치 파악) 데이터의 퍼짐 정도(형태 파악)
평균값(mean),
중앙값(median),
최빈값(mode)
분산(variance),
표준편차(standard deviation)

 

 

- 변수는 확률분포를 가지는데, 이때 확률분포의 위치와 형태를 파악하는것이 중요하다. 위치와 형태를 결정하는 것이 평균, 분산, 공분산이다. 

 

 

 


01. 평균(mean)

1-1. 이산변수의 평균

표본 크기 n인 양적 변수 표본 x1,x2, x3,... xn이 있을 때, 평균값은 다음과 같이 정의된다.

 

(Example)

X =  두개의 동전을 동시에 던졌을 때 나올 수 있는 앞면의 수

확률분포는 다음과 같을 때, E(x) =? 
X P(X=x)
0 1/4
1 1/2
2 1/4


#풀이
0*1/4 + 1*1/2 + 2*1/4 = 1

 

 

 

1-2. 연속변수의 평균 

(Example)

E[g(X)] = X^2 + 1
E [g(x)] = E [X^2 +1] = ∫(x^2 +1) fx(x) dx

 

 

 

1-3. 평균의 주요 특성

X는 변수, c, d는 상수

공식
E(c) = c E(3) = 3
E(cX) = cE(x) E(3X) = 3E(X)
E(cX + d) = cE(X) + d E(3X + 4) = 3E(x) + 4
E(X|X) = X  *  

 

*변수의 경우, 자기 자신을 조건으로 했을 때, 상수로 간주됨

 

 

 


02. 분산(variance)

 

평균이 분포의 위치를 나타내는 값이었다면, '분산'은 분포의 형태를 나타내는 역할을 한다. 즉, 데이터가 '어느 정도 퍼져있는지(=흩어져 있는지)에 대한 값이다. 예를 들어 위의 그래프에서 파란색, 빨간색, 노란색 그래프는 평균이 0으로 모두 같지만 분산의 값에 따라서 최종적인 그래프의 형태가 달라지는 것을 볼 수 있다. 조금 더 구체적으로, 파란색 그래프와 같이 분산의 값이 작아질수록, 그래프는 좁아지는 형태를 띠며, 노란색과 같이 분산이 커질수록 양쪽으로 넓게 퍼지는 형태의 그래프가 형성된다. 또한 분산은 아래의 식과 같이 나타낼 수 있다.

 

 

이때, E(X^2)은 X가 이산변수인 경우, 아래 식과 같으며

 

X가 연속변수인 경우 아래 식과 같다.

 

 

2-1. 분산의 주요 특성

공식
Var(cX +d) = c^2Var(X) Var(10X + 20) = 100Var(X)
Var(X|X) = 0  

 

*상수는 분산에 아무런 영향을 미치지 않기 때문에 없는 것이나 마찬가지!

(예를 들어 모든 데이터를 x축 방향으로 5씩 이동했을 때 전체적인 흩어진 정도는 똑같음)

따라서 상수의 분산은 '0'

 

 


03. 공분산(Covariance)

공분산은 두 변수의 값이 함께 변하는 정도를 의미한다. 만약 공분산이 양수라면, 한 변수가 증가할 때 다른 변수의 값도 증가하는 경향이 있다는 의미이다. 반면 공분산이 음수인 경우, 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있다는 것을 의미한다. 공분산이 0에 가깝다면, 두 변수 사이에 별다른 선형 관계가 없다는 것을 의미한다. 즉, 한 변수의 변화가 다른 변수의 변화를 예측하거나 설명하지 못하고 있다는 것이다. 공분산은 각 변수의 편차(각 데이터값에서 그 변수의 평균을 뺀 값)를 곱한 값들의 평균으로, 다음과 같은 식으로 나타낼 수 있다. 

 

* 단,두 개의 확률변수 X와 Y가 서로 독립(independent)적일 때, 공분산 Cov(X, Y) =0이다. ( if X and Y are independent, then Cov(X, Y)=0, because  E(XY)=E(X) E(Y)=μXμY ) 서로 독립적이라는 것은 한 변수의 변화가 다른 변수의 변화에 전혀 영향을 미치지 않는다는 것을 의미하고, 두 변수 사이에 선형적인 관계가 없다는 것이다. 

 

 

3-1. 공분산의 주요 특성

1. Cov(X, a)=0 

2. Cov(X, X)=Var(X)

3. Cov(aX+b, cY+d)=acCov(X, Y)

 

1) Cov(X, a) =0 : 변수(X)와 상수(a)의 공분산은 0이라는 것을 의미한다.

2) Cov(X, X) = Var(X) : X자신과의 공분산은 X의 분산과 같다. 즉, 자기 자신과의 관계를 측정하는 것이므로, 이는 분산과 동일하다.

3) Cov(aX + b, cY+d) = acCov(X, Y) : 두 변수 X와 Y에 대해 각각을 상수 a와 c로 곱하고, 다른 상수 b와 d로 더했을 때의 공분산을 나타낸다. 이 경우 공분산은 원래의 X, Y의 공분산에 a와 c를 곱한 것과 같다. 이는 선형 변환 후에도 원래 두 변수 사이의 관계 강도가 변하지 않고, 단순히 상수의 곱만큼 조정된다는 것을 의미한다.  

반응형