수집한 데이터로 계산을 수행하여 얻은 값을 '통계량'이라고 하고, 이러한 통계량을 통해 대상을 이해하는 과정이 데이터 분석이다. 데이터에서 몇 가지 통계량을 계산하여 요약하면, 데이터가 어떻게 형성되어 있는지 특징짓는 일이 가능해지는데, 이를 기술 통계량 또는 요약 통계량이라고 한다.
* 대표적인 기술통계량
대표값(위치 파악) | 데이터의 퍼짐 정도(형태 파악) |
평균값(mean), 중앙값(median), 최빈값(mode) |
분산(variance), 표준편차(standard deviation) |
- 변수는 확률분포를 가지는데, 이때 확률분포의 위치와 형태를 파악하는것이 중요하다. 위치와 형태를 결정하는 것이 평균, 분산, 공분산이다.
01. 평균(mean)
1-1. 이산변수의 평균
표본 크기 n인 양적 변수 표본 x1,x2, x3,... xn이 있을 때, 평균값은 다음과 같이 정의된다.
(Example)
X = 두개의 동전을 동시에 던졌을 때 나올 수 있는 앞면의 수
확률분포는 다음과 같을 때, E(x) =?
X P(X=x) 0 1/4 1 1/2 2 1/4
#풀이
0*1/4 + 1*1/2 + 2*1/4 = 1
1-2. 연속변수의 평균
(Example)
E[g(X)] = X^2 + 1
E [g(x)] = E [X^2 +1] = ∫(x^2 +1) fx(x) dx
1-3. 평균의 주요 특성
X는 변수, c, d는 상수
공식 | 예 |
E(c) = c | E(3) = 3 |
E(cX) = cE(x) | E(3X) = 3E(X) |
E(cX + d) = cE(X) + d | E(3X + 4) = 3E(x) + 4 |
E(X|X) = X * |
*변수의 경우, 자기 자신을 조건으로 했을 때, 상수로 간주됨
02. 분산(variance)
평균이 분포의 위치를 나타내는 값이었다면, '분산'은 분포의 형태를 나타내는 역할을 한다. 즉, 데이터가 '어느 정도 퍼져있는지(=흩어져 있는지)에 대한 값이다. 예를 들어 위의 그래프에서 파란색, 빨간색, 노란색 그래프는 평균이 0으로 모두 같지만 분산의 값에 따라서 최종적인 그래프의 형태가 달라지는 것을 볼 수 있다. 조금 더 구체적으로, 파란색 그래프와 같이 분산의 값이 작아질수록, 그래프는 좁아지는 형태를 띠며, 노란색과 같이 분산이 커질수록 양쪽으로 넓게 퍼지는 형태의 그래프가 형성된다. 또한 분산은 아래의 식과 같이 나타낼 수 있다.
이때, E(X^2)은 X가 이산변수인 경우, 아래 식과 같으며
X가 연속변수인 경우 아래 식과 같다.
2-1. 분산의 주요 특성
공식 | 예 |
Var(cX +d) = c^2Var(X) | Var(10X + 20) = 100Var(X) |
Var(X|X) = 0 |
*상수는 분산에 아무런 영향을 미치지 않기 때문에 없는 것이나 마찬가지!
(예를 들어 모든 데이터를 x축 방향으로 5씩 이동했을 때 전체적인 흩어진 정도는 똑같음)
따라서 상수의 분산은 '0'
03. 공분산(Covariance)
공분산은 두 변수의 값이 함께 변하는 정도를 의미한다. 만약 공분산이 양수라면, 한 변수가 증가할 때 다른 변수의 값도 증가하는 경향이 있다는 의미이다. 반면 공분산이 음수인 경우, 한 변수가 증가할 때 다른 변수가 감소하는 경향이 있다는 것을 의미한다. 공분산이 0에 가깝다면, 두 변수 사이에 별다른 선형 관계가 없다는 것을 의미한다. 즉, 한 변수의 변화가 다른 변수의 변화를 예측하거나 설명하지 못하고 있다는 것이다. 공분산은 각 변수의 편차(각 데이터값에서 그 변수의 평균을 뺀 값)를 곱한 값들의 평균으로, 다음과 같은 식으로 나타낼 수 있다.
* 단,두 개의 확률변수 X와 Y가 서로 독립(independent)적일 때, 공분산 Cov(X, Y) =0이다. ( if X and Y are independent, then Cov(X, Y)=0, because E(XY)=E(X) E(Y)=μXμY ) 서로 독립적이라는 것은 한 변수의 변화가 다른 변수의 변화에 전혀 영향을 미치지 않는다는 것을 의미하고, 두 변수 사이에 선형적인 관계가 없다는 것이다.
3-1. 공분산의 주요 특성
1. Cov(X, a)=0
2. Cov(X, X)=Var(X)
3. Cov(aX+b, cY+d)=acCov(X, Y)
1) Cov(X, a) =0 : 변수(X)와 상수(a)의 공분산은 0이라는 것을 의미한다.
2) Cov(X, X) = Var(X) : X자신과의 공분산은 X의 분산과 같다. 즉, 자기 자신과의 관계를 측정하는 것이므로, 이는 분산과 동일하다.
3) Cov(aX + b, cY+d) = acCov(X, Y) : 두 변수 X와 Y에 대해 각각을 상수 a와 c로 곱하고, 다른 상수 b와 d로 더했을 때의 공분산을 나타낸다. 이 경우 공분산은 원래의 X, Y의 공분산에 a와 c를 곱한 것과 같다. 이는 선형 변환 후에도 원래 두 변수 사이의 관계 강도가 변하지 않고, 단순히 상수의 곱만큼 조정된다는 것을 의미한다.