본문 바로가기

반응형

💻프로그래밍/python

(40)
[pandas] 1. csv파일 불러오기(pd.read_csv) / 내보내기(df.to_csv) 사용법 (sep, skiprows, index_col, utf-8, cp949, na_values, names) 01. 판다스(pandas) 라이브러리 import import pandas as pd 우선 판다스(pandas)를 사용하기 위해서 해당 라이브러리를 import 해준다. 02. csv파일 불러오기 : pd.read_csv( ) pd.read_csv() pd.read_csv() 를 이용하여 데이터를 불러오자. 괄호 안에 '파일명' 혹은 '파일 경로'를 적어주면 된다. 그냥 pd.read_csv로 파일을 불러올 수 있지만, 파일을 불러올 때부터 그것을 하나의 변수로 선언하는 것이 일반적이다. 03. 구분자 : sep = '|' / '\t' 기본적으로 csv파일은 쉼표(comma)로 데이터 값이 구분되기 때문에 따로 구분자를 설정할 필요가 없다. 하지만 콤마(,)가 아닌 다른것으로 구분자가 설정되어있을 경우..
[TIL] 2021-03-06 : 임으로 생략된 columns와 rows 전체 확인( pd.options.display.max_columns / pd.options.display.max_rows ) 📌 임의로 생략된 columns를 보고 싶을때 : pd.options.display.max_columns 데이터 프레임에서 columns의 갯수가 많은 경우 위의 사진처럼 중간에 (...)로 생략되어 보여진다. 이때 데이터 프레임에 있는 칼럼들을 모두 보고싶다면 어떻게 해야할까? ➰ info( ) 첫번째 방법은 info( )를 사용하면 데이터 프레임에 있는 전체 칼럼들을 확인할 수 있다. ➰ pd.options.display.max_columns pd.options.display.max_columns = None 두번째 방법은 위의 코드처럼 max_columns를 None으로 지정하면 전체 columns을 모두 보이게 할 수 있다. 📌 임의로 생략된 row를 보고 싶을때 : pd.options.displ..
[TIL] 2021-03-02 : pandas unique( ) ,value_counts( ) 사용법 / 데이터 인코딩 pd.get_dummies( )사용법 📌 columns에 있는 값의 종류 확인 :. unique( ) & 값의 빈도 출력 : .value_counts( ) 먼저 .head()를 사용하여 데이터 프레임의 구조를 확인해보자. 데이터 프레임에 있는 칼럼들 중, 'OC'칼럼에 어떤 값들이 있는지 한 번에 확인해보자. .unique( )를 사용하여 df4의 칼럼'OC'에 어떠한 값이 있는지 알아보면, 'open', 'close'라는 object타입의 데이터들이 있음을 확인할 수 있다. 다음으로 .value_counts( )를 사용하여 각 값들의 빈도를 확인해보면 'open'은 270개, 'close'는 7개 들어있음을 알 수 있다. 📌 데이터 인코딩 : pd.get_dummies( ) 사이킷런의 머신러닝 알고리즘은 문자열 값을 허용하지 않기 때문에 ..
[TIL] 2021-02-20 : 주피터 노트북에 이미지 넣기 / rename / feature_importances 📌 주피터 노트북에 이미지 넣기 ➰ 패키지 설치 & import !pip install IPython from IPython.display import Image ➰ 이미지 넣기 Image("파일경로/파일명.확장자명") 📌 columns 이름 바꾸기 : pd.rename(columns={ : }) 현재 df1의 칼럼들을 확인해보면 직관적으로 알 수 없기때문에 rename( )을 사용하여 알아보기 쉽게 바꿔보자. df1.rename(columns={'Col1':'pelvic_incidence', 'Col2':'pelvic_tilt', 'Col3':'lumbar_lordosis_angle', 'Col4':'sacral_slope', 'Col5':'pelvic_radius', 'Col6':'degree_spo..
[TIL] 2021-02-19 : 데이터 재구조화 : stack함수 사용법 📌 stack 정형 데이터에서 가장 중요한것은 각각의 columns들이 모두 독립적이어야 한다는것이다. 하지만 위의 데이터 프레임을 보면 점포가 각각의 columns로 들어가있기때문에 서로 독립이 되어있지 않음을 알 수 있다. 즉, 각 점포에 제품별 판매량이 합계로 합쳐지기 때문에 columns가 서로 영향을 주고 있는것이다. 이러한 경우 stack( )을 사용하여 데이터 프레임을 재구조화 시켜주어야 한다. stack을 적용할때 index를 설정하지 않고 하는방법과 특정 columns을 인덱스로 지정해서 stack하는 방법이 있다. 📌 index 를 설정하지 않고 stack( ) ➰ 데이터 프레임 형태로 변환 : pd.DataFrame( ) 📌 index를 지정한 뒤 stack : set_index( )..

반응형