💻프로그래밍/python

[TIL] 2021-02-16 : subplots / 확증적 데이터 분석(CDA) / shape() / corr()

빅데희터 2021. 2. 16. 19:39
반응형

 

📌  subplot 

 

 

➰실제로 썼던 코드

 

 

 

➰ 간소화해서 정리

figure, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2)
figure.set_size_inches(16,8)

sns.barplot(data=total2, x='년도', y='count', ax=ax1)
sns.barplot(data=total2, x='월', y='count', ax=ax2)

sns.barplot(data=total2, x='일', y='count', ax=ax3)
sns.barplot(data=total2, x='시간', y='count', ax=ax4)

 

 

 

➰ row(행)만 있도록 하고 싶을 때 (nrows = )

 

 

 

 

➰ columns(열)만 있도록 하고싶을때 (ncols = )

 

 

 

 


📌  머신러닝에서 확증적 데이터 분석(CDA)단계를 생략하는 이유

전통 통계에서는 모집단을 가지고 표본을 추출하여 가설을 검증하기 때문에 우리가 추출한 표본이 모집단을 충분히 대표하는지 검증하는 것이 필요했다. 하지만 머신러닝에서는 전체 데이터를 모두 사용하여 그 안에서 규칙을 찾는다. 즉, 따로 표본을 추출하지 않기 때문에 따로 표본에 대한 검증을 할 필요가 없다. 그 대신 데이터 전처리를 깔끔하게 해줘야 함!!

 

 

 

 


📌  shape( ) 

데이터의 구조가 바뀔 때마다 shape( )로 row, columns 확인하는 습관들이자.

 

 

 

 


📌  변수간 상관 분석 : corr( ) 

corr( )을 이용하여 변수간 상관관계를 확인했을 때, -1 ~ 1의 값이 나온다.

이때 -1에 가까울수록 '음의 상관관계', 0에 가까울수록 '상관성이 없다.' ,1에 가까울수록 '양의 상관관계'를 가지고 있는 것!

 

 

heatmap( )을 사용하면 시각화해볼 수도 있음

 

 

반응형