본문 바로가기

💻프로그래밍/python

[pandas] 3. 데이터 파악하기 (head, tail, shape, columns, dtype, isnull.sum, describe, info, unique, nunique)

반응형

데이터를 불러왔다면, 기본적으로 데이터를 파악하는 과정을 거치게 된다. 따라서 이번 게시물에서는 데이터를 파악하는 기본적인 방법들에 대해 정리하고자 한다.

🖇 (참고 : 데이터 불러오는 방법 (클릭))

 

 

 

01. 상위 5개의 행 출력 :  head( ) 

df.head()

 head( ) 를 사용하면 전체 데이터 프레임에서 상위 5개의 행을 출력한다. 

 

 

이때 ( )안에 숫자를 적어주면 그 숫자 만큼의 행을 출력해준다. 이 경우 괄호( )안에 2를 적어 상위 2개의 행만 출력되었음을 알 수 있다.

 

 

 

 


02. 하위 5개의 행 출력 :  tail( ) 

df.tail()

head( )와 반대로  tail( ) 하위 5개의 행을 출력한다. 이때 head()와 마찬가지로 ( )안에 숫자를 적어주면 그 숫자만큼의 하위 행을 출력한다.

 

 

 

 


03. 행, 열 개수 확인 :  shape( ) 

df.shape

이때 행(row)의 갯수는 418개, 열(column)의 개수는 11개라고 해석하면 된다. shape뒤에 ( )는 붙이지 않는 것을 주의

 

 

 

 


04. 전체 칼럼 출력 :  .columns 

 

이번에는 전체 데이터 프레임에서 어떤 칼럼이 있는지 확인해보자

 

 

df.columns

 columns 를 사용하면 칼럼들을 확인할 수 있다. columns 뒤에 괄호( )는 사용하지 않는다는 것을 주의하자.

 

 

 

 


05. 특정 칼럼의 데이터 타입 확인 :  dtype 

 

전체 데이터 프레임 중, 특정 칼럼에 있는 데이터들의 타입이 궁금할때는  dtype 을 사용하면 된다. 그렇다면 칼럼'Age'에 있는 값들의 데이터 타입은 무엇일까?

 

 

df['칼럼명'].dtype

dtype은 이용하여 해당 칼럼의 데이터 타입을 확인해보면, 실수형(float) 임을 알 수 있다.

 

 

 

 


06. 결측치 개수 파악 :  isnull( ).sum( ) 

 

먼저, isnull( ) 을 사용하여 데이터 프레임에서의 결측치를 확인해보면 그 결과가 True(결측치) / False(결측치 아님)으로 나타난다. 하지만 이렇게 사용하면 결측치를 한눈에 파악하기 힘들어진다. 

 

 

 

따라서  isnull( ).sum( ) 을 같이 써줌으로써 각 칼럼 별로 결측치의 개수를 한 번에 볼 수 있다. 위의 결과를 보면 칼럼 'Age'에 결측치가 86개, 'Fare'칼럼에는 1개, 'Cabin'칼럼에는 327개의 결측치가 있음을 알 수 있다.

 

 

 

 


07. 각 컬럼별 데이터 수 & 데이터 타입을 한 번에 확인 : info( ) 

 

 

 

 


08. 수치형 변수의 분포 확인 :  describe( ) 

 

 describe( ) 를 사용하면 전체 데이터 프레임의 칼럼 중, 수치형 데이터를 가지고 있는 칼럼들만 추출하여 각 데이터들의 특성을 보여준다. 사분위, 평균, 표준편차, 최대값, 최솟값을 확인할 수 있다.

 

 

 

 


09. 특정 칼럼의 값 확인 :  df.['칼럼명'] 

 

이번에는 특정 칼럼에 있는 값들을 확인해보자. 전체 데이터 프레임에서 'Age'칼럼에 어떠한 값들이 들어있는지 확인해보려면 어떻게 해야 할까?

 

 

이러한 경우 [ ]를 사용하여 내가 확인하고 싶은 칼럼명을 적어주면 된다. 이때 각 값들이 출력되며, 동시에 해당 칼럼 값의 데이터 타입도 확인할 수 있다.

 

 

 

 


10. 특정 칼럼의 유일한 값 확인 : unique( ) 

이번에는 특정 칼럼에 있는 데이터들의 유일한 값을 확인해보자. 

 

 

 

 unique( ) 를 사용하여 'Pcalss'에 있는 유일 값을 확인해보면 3,2,1의 값이 들어있음을 알 수 있다. 즉 unique()는 칼럼에 있는 데이터 값의 종류를 확인하고 싶을 때 사용하는 방법이다. 

 

 

 

AttributeError: 'DataFrame' object has no attribute 'unique'

 

 unique( )를 적용할 때 주의할 점은 시리즈(series)형태(예를 들면 1개의 칼럼씩)에 적용해야 한다는 것이다. 위의 코드처럼 전체 데이터 프레임에 unique( )를 적용하게 되면 에러가 뜬다.

 

 

 

 


11. 특정 칼럼의 유일 값의 개수 확인 :  nunique( ) 

위의 내용에 이어서, 이번에는 특정 칼럼의 유일 값의 개수를 확인해보자. 아까 unique( )를 사용하여 'Pclass'에 있는 값들의 종류를 확인해 봤을 때 3,2,1로 총 3가지 종류의 값이 존재했다. 따라서 nunique() 사용하여 종류의 수를 확인해보면 3(=3가지 종류가 있다)이 출력된 것이다.

 

 

 

 

 

🖇 사용 한 데이터 다운로드

https://www.kaggle.com/c/titanic/data

반응형