본문 바로가기

반응형

💻프로그래밍/python

(39)
[pandas] 여러 데이터 프레임을 하나로 합치기(1) concat 쉽게 사용하기 01. 데이터 프레임 concatenate 데이터를 다루다 보면 여러 개의 데이터 프레임(dataframe)들을 하나로 합쳐야 하는 일이 많이 발생한다. 데이터 프레임을 연결/병합하는 방법은 여러 가지가 있는데, 그중 concat 함수를 사용하면 기준 열(key column)을 사용하지 않고 단순히 데이터를 위/아래 또는 좌/우로 연결(concatenate)할 수 있다. 02. pd.concat 사용법 1️⃣ 데이터 셋 준비 #1.필요한 라이브러리 import import pandas as pd #2.데이터 셋 불러오기 df1 = pd.read_csv('heart1.csv') df2 = pd.read_csv('heart2.csv') 먼저 pandas 라이브러리를 import하고 pd.read_csv로 사..
파이썬 데이터 이상치(outlier) 제거 방법, 박스플롯(Boxplot) IQR 00. 이상치(Outlier) 데이터 분석을 할 때 데이터 전처리에 많은 시간을 할애하게 된다. 데이터 전처리 단계에서 해야 하는 것은 여러 가지가 있겠지만 그중 데이터 이상치 처리에 대해 정리하고자 한다. 데이터에 이상치가 많이 포함되어 있을 경우, 모델의 성능을 저하시킬 수 있기 때문에 이를 처리해주는 것이 필요하다. (이때, 이상치라고 해서 무조건 제거해야하는것은 아니고 해당 도메인에 맞게 판단하는 것이 필요함) 01. 박스플롯(Boxplot)을 통한 이상치 확인 그렇다면 내가 가지고 있는 데이터셋에 이상치가 있는지 어떻게 확인할 수 있으며 무엇을 기준으로 해당 데이터 값을 이상치라고 판단할 수 있을까? 이를 위해서는 박스플롯(Boxplot)을 알면 좋은데, 위 그림과 같이 상자 수염 도표를 이용하..
[pandas] str.split(expand=Ture) : 하나의 columns를 여러개로 나누기 01. 데이터 불러오기 df1 = pd.read_csv(trains[0], sep='\t', header=None) df1 먼저 txt 파일을 pd.read_csv()를 이용하여 불러오면 위와 같은 형태로 출력된다. 해당 데이터는 PSG(수면다원검사)시, 동시에 애플 워치를 착용하여 수집한 데이터로 그중에서도 가속도계 데이터만을 가져왔다. 각 데이터는 1) PSG 이후 시간(초단위) 2) 가속도계의 x축 3) 가속도계의 y축 4) 가속도계의 z 축을 의미한다. 이때 각 데이터들이 하나의 칼럼으로 한 번에 들어가 있어서 이를 각 데이터로 나누고 알맞게 칼럼에 넣고자 한다. 02. str.split('', expand=True) df1 = df1[0].str.split(' ' , expand= True) d..
[pandas] csv, tsv 파일 01. csv 파일 csv는 'Comma-separated values'라는 의미로, 각 값들이 콤마(,)로 구분된 텍스트 파일 포맷이다. 확장자는 .csv이다. 〰️사용 예시 import pandas as pd pd.read_csv('data.csv') csv파일은 pandas(판다스)에서 pd.read_csv로 불러올 수 있다. 02. tsv파일 tsv파일은 csv파일과 비슷하지만, 각 값들을 Tab으로 구분하는 파일 포맷을 의미하며, 확장자는 .tsv이다. 2-1. 사용 예시 〰️sep = ', '로 설정 import pandas as pd df = pd.read_csv('data.tsv') df tsv 파일을 pd.read_csv로 불러왔을 때 ParserError가 발생하였다. pd.read_c..
[pandas]특정 문자를 포함하는 행 추출 01. 데이터 불러오기 & 데이터 확인 import pandas as pd df = pd.read_csv('파일명') df 'Name'칼럼을 확인해보면, 해당 칼럼의 데이터들은 object type인것을 알 수 있다. 02. 해당 칼럼에서 특정 문자열을 포함하는 행만 추출 이번에는 'Name'칼럼에서 'Mrs'가 포함된 열만 추출해보자 df[df['Name'].str.contains('Mrs')] df[df['칼럼명'].str.contains('문자열')] 'Name'칼럼에서 'Mrs'문자열이 포함된 열만 추출되었다. 🖇데이터 다운 https://www.kaggle.com/competitions/titanic/data?select=train.csv

반응형