💻프로그래밍/python
[TIL] 2021-02-16 : subplots / 확증적 데이터 분석(CDA) / shape() / corr()
빅데희터
2021. 2. 16. 19:39
반응형
📌 subplot
➰실제로 썼던 코드
➰ 간소화해서 정리
figure, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2)
figure.set_size_inches(16,8)
sns.barplot(data=total2, x='년도', y='count', ax=ax1)
sns.barplot(data=total2, x='월', y='count', ax=ax2)
sns.barplot(data=total2, x='일', y='count', ax=ax3)
sns.barplot(data=total2, x='시간', y='count', ax=ax4)
➰ row(행)만 있도록 하고 싶을 때 (nrows = )
➰ columns(열)만 있도록 하고싶을때 (ncols = )
📌 머신러닝에서 확증적 데이터 분석(CDA)단계를 생략하는 이유
전통 통계에서는 모집단을 가지고 표본을 추출하여 가설을 검증하기 때문에 우리가 추출한 표본이 모집단을 충분히 대표하는지 검증하는 것이 필요했다. 하지만 머신러닝에서는 전체 데이터를 모두 사용하여 그 안에서 규칙을 찾는다. 즉, 따로 표본을 추출하지 않기 때문에 따로 표본에 대한 검증을 할 필요가 없다. 그 대신 데이터 전처리를 깔끔하게 해줘야 함!!
📌 shape( )
데이터의 구조가 바뀔 때마다 shape( )로 row, columns 확인하는 습관들이자.
📌 변수간 상관 분석 : corr( )
corr( )을 이용하여 변수간 상관관계를 확인했을 때, -1 ~ 1의 값이 나온다.
이때 -1에 가까울수록 '음의 상관관계', 0에 가까울수록 '상관성이 없다.' ,1에 가까울수록 '양의 상관관계'를 가지고 있는 것!
heatmap( )을 사용하면 시각화해볼 수도 있음
반응형