본문 바로가기

반응형

💻프로그래밍

(48)
[TIL] 2021-03-02 : pandas unique( ) ,value_counts( ) 사용법 / 데이터 인코딩 pd.get_dummies( )사용법 📌 columns에 있는 값의 종류 확인 :. unique( ) & 값의 빈도 출력 : .value_counts( ) 먼저 .head()를 사용하여 데이터 프레임의 구조를 확인해보자. 데이터 프레임에 있는 칼럼들 중, 'OC'칼럼에 어떤 값들이 있는지 한 번에 확인해보자. .unique( )를 사용하여 df4의 칼럼'OC'에 어떠한 값이 있는지 알아보면, 'open', 'close'라는 object타입의 데이터들이 있음을 확인할 수 있다. 다음으로 .value_counts( )를 사용하여 각 값들의 빈도를 확인해보면 'open'은 270개, 'close'는 7개 들어있음을 알 수 있다. 📌 데이터 인코딩 : pd.get_dummies( ) 사이킷런의 머신러닝 알고리즘은 문자열 값을 허용하지 않기 때문에 ..
[TIL] 2021-02-20 : 주피터 노트북에 이미지 넣기 / rename / feature_importances 📌 주피터 노트북에 이미지 넣기 ➰ 패키지 설치 & import !pip install IPython from IPython.display import Image ➰ 이미지 넣기 Image("파일경로/파일명.확장자명") 📌 columns 이름 바꾸기 : pd.rename(columns={ : }) 현재 df1의 칼럼들을 확인해보면 직관적으로 알 수 없기때문에 rename( )을 사용하여 알아보기 쉽게 바꿔보자. df1.rename(columns={'Col1':'pelvic_incidence', 'Col2':'pelvic_tilt', 'Col3':'lumbar_lordosis_angle', 'Col4':'sacral_slope', 'Col5':'pelvic_radius', 'Col6':'degree_spo..
[TIL] 2021-02-19 : 데이터 재구조화 : stack함수 사용법 📌 stack 정형 데이터에서 가장 중요한것은 각각의 columns들이 모두 독립적이어야 한다는것이다. 하지만 위의 데이터 프레임을 보면 점포가 각각의 columns로 들어가있기때문에 서로 독립이 되어있지 않음을 알 수 있다. 즉, 각 점포에 제품별 판매량이 합계로 합쳐지기 때문에 columns가 서로 영향을 주고 있는것이다. 이러한 경우 stack( )을 사용하여 데이터 프레임을 재구조화 시켜주어야 한다. stack을 적용할때 index를 설정하지 않고 하는방법과 특정 columns을 인덱스로 지정해서 stack하는 방법이 있다. 📌 index 를 설정하지 않고 stack( ) ➰ 데이터 프레임 형태로 변환 : pd.DataFrame( ) 📌 index를 지정한 뒤 stack : set_index( )..
[TIL] 2021-02-16 : subplots / 확증적 데이터 분석(CDA) / shape() / corr() 📌 subplot ➰실제로 썼던 코드 ➰ 간소화해서 정리 figure, ((ax1, ax2), (ax3, ax4)) = plt.subplots(nrows=2, ncols=2) figure.set_size_inches(16,8) sns.barplot(data=total2, x='년도', y='count', ax=ax1) sns.barplot(data=total2, x='월', y='count', ax=ax2) sns.barplot(data=total2, x='일', y='count', ax=ax3) sns.barplot(data=total2, x='시간', y='count', ax=ax4) ➰ row(행)만 있도록 하고 싶을 때 (nrows = ) ➰ columns(열)만 있도록 하고싶을때 (ncols =..
파이썬 Datetime 사용법 (날짜 데이터 처리1) 01. 데이터 불러오기 & 확인 먼저 판다스를 import 해준다. 그리고 pd.read_csv을 이용하여 처리하고자 하는 csv파일을 불러온 뒤, 기본적인 전체 데이터 프레임의 row, columns, values를 확인한다. 오늘은 그중에서 날짜 데이터 타입에 초점을 맞춰 처리하는 방법에 대해 알아보자. 02. 날짜 columns 가져오기 : [ ] 대괄호[ ]를 이용하여 series 형태로 '날짜'라는 column에 있는 값들을 불러온다. 이때 데이터 타입(dtype)을 확인해보면 object(문자형태)로 인식하고 있음을 알 수 있다. *series(시리즈) : 칼럼이 하나뿐인 구조체, 데이터의 순번과 데이터로만 구성된 것 *cf) DataFrame(데이터프레임) : 칼럼이 여러개인 데이터 구조체 ..

반응형