본문 바로가기

반응형

💻프로그래밍/python

(39)
[pandas] 4. 데이터 정렬 (sort_values, sort_index, by, ascending) 01. 데이터 값을 기준으로 데이터 정렬 : sort_values( ) 〰️ sort_values( ) 사용 방법 import pandas as pd df1 = pd.read_csv('파일명') df1.head() 먼저 판다스(pandas) 라이브러리를 임포트(import)하고, 사용할 데이터를 불러온다. df['칼럼명'].sort_values() sort_values( ) 를 사용하여 특정 칼럼의 값을 정렬해보자. 전체 데이터 프레임 중에서 'Fare'의 데이터 값들을 정렬하기 위해 df1['Fare'].sort_values( ) 를 입력한 뒤 결과를 확인한다. 해당 코드는 'df1이라는 데이터 프레임 중 'Fare' 칼럼에 있는 값들을 정렬해줘!'라는 의미이다. 이때 기본적으로는 데이터 값은 오름 차..
[pandas] 3. 데이터 파악하기 (head, tail, shape, columns, dtype, isnull.sum, describe, info, unique, nunique) 데이터를 불러왔다면, 기본적으로 데이터를 파악하는 과정을 거치게 된다. 따라서 이번 게시물에서는 데이터를 파악하는 기본적인 방법들에 대해 정리하고자 한다. 🖇 (참고 : 데이터 불러오는 방법 (클릭)) 01. 상위 5개의 행 출력 : head( ) df.head() head( ) 를 사용하면 전체 데이터 프레임에서 상위 5개의 행을 출력한다. 이때 ( )안에 숫자를 적어주면 그 숫자 만큼의 행을 출력해준다. 이 경우 괄호( )안에 2를 적어 상위 2개의 행만 출력되었음을 알 수 있다. 02. 하위 5개의 행 출력 : tail( ) df.tail() head( )와 반대로 tail( ) 은 하위 5개의 행을 출력한다. 이때 head()와 마찬가지로 ( )안에 숫자를 적어주면 그 숫자만큼의 하위 행을 출력한..
[pandas] 2-2. loc와 iloc 차이와 사용방법 🖇 이전 글 [pandas] 2-1. loc와 iloc 차이와 사용방법 파이썬 기초 문법을 공부할 때 인덱싱(indexing) 개념에 대해 배웠을 것이다. '인덱싱'에 대해 잘 모른다면 (클릭). 인덱싱은 데이터 프레임에도 적용할 수 있는데, 판다스에서 특정 행(row)나 열(colum bigdaheta.tistory.com 02. iloc iloc는 integer location의 약어로, 데이터 프레임의 행이나 칼럼의 순서를 나타내는 정수로 특정 값을 추출해오는 방법이다. loc는 칼럼명을 직접 적거나 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근하는 방법이었다면, iloc는 컴퓨터가 읽기 좋은 방법으로(숫자로) 데이터가 있는 위치(순서)에 접근한다고 생각하면 쉬울 것이다. 〰️i..
[pandas] 2-1. loc와 iloc 차이와 사용방법 파이썬 기초 문법을 공부할 때 인덱싱(indexing) 개념에 대해 배웠을 것이다. '인덱싱'에 대해 잘 모른다면 (클릭). 인덱싱은 데이터 프레임에도 적용할 수 있는데, 판다스에서 특정 행(row)나 열(column)을 골라낼때 사용하는 방법으로 loc와 iloc가 있다. 01. loc loc는 location의 약어로, 데이터 프레임의 행 또는 칼럼의 label이나 boolean array로 인덱싱하는 방법이다. 즉, 사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법이라고 생각하면 된다. 〰️ loc 사용방법 df.loc[행 인덱싱 값, 열 인덱싱 값] 먼저 하나의 데이터 프레임을 불러온 뒤, 변수 df1으로 선언한다. loc[ ] 에 하나의 값만 입력한다면 그에 해당되는 하나의 행만 뽑아..
[pandas] 1. csv파일 불러오기(pd.read_csv) / 내보내기(df.to_csv) 사용법 (sep, skiprows, index_col, utf-8, cp949, na_values, names) 01. 판다스(pandas) 라이브러리 import import pandas as pd 우선 판다스(pandas)를 사용하기 위해서 해당 라이브러리를 import 해준다. 02. csv파일 불러오기 : pd.read_csv( ) pd.read_csv() pd.read_csv() 를 이용하여 데이터를 불러오자. 괄호 안에 '파일명' 혹은 '파일 경로'를 적어주면 된다. 그냥 pd.read_csv로 파일을 불러올 수 있지만, 파일을 불러올 때부터 그것을 하나의 변수로 선언하는 것이 일반적이다. 03. 구분자 : sep = '|' / '\t' 기본적으로 csv파일은 쉼표(comma)로 데이터 값이 구분되기 때문에 따로 구분자를 설정할 필요가 없다. 하지만 콤마(,)가 아닌 다른것으로 구분자가 설정되어있을 경우..

반응형