본문 바로가기

반응형

💻프로그래밍

(48)
판다스(pandas)에서 timedelta를 int로 변환 하는 방법 📌 timedelta 데이터 타입 timedelta는 두 날짜 또는 시간의 차이가 어느 정도인지 나타낼 때 사용하는 모듈이다. timedelta는 + 나 - 을 사용할 수 있기 때문에 어떤 날짜에 특정 기간 (일, 시, 분, 초)를 더하거나 뺄 수 있다. ➰전체 데이터 프레임 & 해당 columns 확인 먼저 전체 데이터 프레임(위의 경우는 t라고 지정)을 확인한 뒤 '배송기간'이라는 columns의 값만 추출해온다. '배송기간' columns의 값들은 '일수'형태의 값들이며 timedelta 타입의 데이터임을 알 수 있다. 이때 timedelta 형태의 데이터를 Int형태로 변환하려면 어떻게 해야 할까? ➰ 생각 1) 데이터 타입을 다른 형태로 변환하는 가장 기본적인 방법은 str( ), int( ),..
[pandas] 4. 데이터 정렬 (sort_values, sort_index, by, ascending) 01. 데이터 값을 기준으로 데이터 정렬 : sort_values( ) 〰️ sort_values( ) 사용 방법 import pandas as pd df1 = pd.read_csv('파일명') df1.head() 먼저 판다스(pandas) 라이브러리를 임포트(import)하고, 사용할 데이터를 불러온다. df['칼럼명'].sort_values() sort_values( ) 를 사용하여 특정 칼럼의 값을 정렬해보자. 전체 데이터 프레임 중에서 'Fare'의 데이터 값들을 정렬하기 위해 df1['Fare'].sort_values( ) 를 입력한 뒤 결과를 확인한다. 해당 코드는 'df1이라는 데이터 프레임 중 'Fare' 칼럼에 있는 값들을 정렬해줘!'라는 의미이다. 이때 기본적으로는 데이터 값은 오름 차..
[pandas] 3. 데이터 파악하기 (head, tail, shape, columns, dtype, isnull.sum, describe, info, unique, nunique) 데이터를 불러왔다면, 기본적으로 데이터를 파악하는 과정을 거치게 된다. 따라서 이번 게시물에서는 데이터를 파악하는 기본적인 방법들에 대해 정리하고자 한다. 🖇 (참고 : 데이터 불러오는 방법 (클릭)) 01. 상위 5개의 행 출력 : head( ) df.head() head( ) 를 사용하면 전체 데이터 프레임에서 상위 5개의 행을 출력한다. 이때 ( )안에 숫자를 적어주면 그 숫자 만큼의 행을 출력해준다. 이 경우 괄호( )안에 2를 적어 상위 2개의 행만 출력되었음을 알 수 있다. 02. 하위 5개의 행 출력 : tail( ) df.tail() head( )와 반대로 tail( ) 은 하위 5개의 행을 출력한다. 이때 head()와 마찬가지로 ( )안에 숫자를 적어주면 그 숫자만큼의 하위 행을 출력한..
[pandas] 2-2. loc와 iloc 차이와 사용방법 🖇 이전 글 [pandas] 2-1. loc와 iloc 차이와 사용방법 파이썬 기초 문법을 공부할 때 인덱싱(indexing) 개념에 대해 배웠을 것이다. '인덱싱'에 대해 잘 모른다면 (클릭). 인덱싱은 데이터 프레임에도 적용할 수 있는데, 판다스에서 특정 행(row)나 열(colum bigdaheta.tistory.com 02. iloc iloc는 integer location의 약어로, 데이터 프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법이다. loc는 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법이었다면, iloc는 컴퓨터가 읽기 좋은 방법으로(숫자로) 데이터가 있는 위치(순서)에 접근한다고 생각하면 쉬울 것이다. 〰️i..
[pandas] 2-1. loc와 iloc 차이와 사용방법 파이썬 기초 문법을 공부할 때 인덱싱(indexing) 개념에 대해 배웠을 것이다. '인덱싱'에 대해 잘 모른다면 (클릭). 인덱싱은 데이터 프레임에도 적용할 수 있는데, 판다스에서 특정 행(row)나 열(column)을 골라낼때 사용하는 방법으로 loc와 iloc가 있다. 01. loc loc는 location의 약어로, 데이터 프레임의 행 또는 칼럼의 label이나 boolean array로 인덱싱하는 방법이다. 즉, 사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법이라고 생각하면 된다. 〰️ loc 사용방법 df.loc[행 인덱싱 값, 열 인덱싱 값] 먼저 하나의 데이터 프레임을 불러온 뒤, 변수 df1으로 선언한다. loc[ ] 에 하나의 값만 입력한다면 그에 해당되는 하나의 행만 뽑아..

반응형