💻프로그래밍/python

[pandas] 3. 데이터 파악하기 (head, tail, shape, columns, dtype, isnull.sum, describe, info, unique, nunique)

빅데희터 2021. 6. 15. 13:56
반응형

데이터를 불러왔다면, 기본적으로 데이터를 파악하는 과정을 거치게 된다. 따라서 이번 게시물에서는 데이터를 파악하는 기본적인 방법들에 대해 정리하고자 한다.

🖇 (참고 : 데이터 불러오는 방법 (클릭))

 

 

 

01. 상위 5개의 행 출력 :  head( ) 

df.head()

 head( ) 를 사용하면 전체 데이터 프레임에서 상위 5개의 행을 출력한다. 

 

 

이때 ( )안에 숫자를 적어주면 그 숫자 만큼의 행을 출력해준다. 이 경우 괄호( )안에 2를 적어 상위 2개의 행만 출력되었음을 알 수 있다.

 

 

 

 


02. 하위 5개의 행 출력 :  tail( ) 

df.tail()

head( )와 반대로  tail( ) 하위 5개의 행을 출력한다. 이때 head()와 마찬가지로 ( )안에 숫자를 적어주면 그 숫자만큼의 하위 행을 출력한다.

 

 

 

 


03. 행, 열 개수 확인 :  shape( ) 

df.shape

이때 행(row)의 갯수는 418개, 열(column)의 개수는 11개라고 해석하면 된다. shape뒤에 ( )는 붙이지 않는 것을 주의

 

 

 

 


04. 전체 칼럼 출력 :  .columns 

 

이번에는 전체 데이터 프레임에서 어떤 칼럼이 있는지 확인해보자

 

 

df.columns

 columns 를 사용하면 칼럼들을 확인할 수 있다. columns 뒤에 괄호( )는 사용하지 않는다는 것을 주의하자.

 

 

 

 


05. 특정 칼럼의 데이터 타입 확인 :  dtype 

 

전체 데이터 프레임 중, 특정 칼럼에 있는 데이터들의 타입이 궁금할때는  dtype 을 사용하면 된다. 그렇다면 칼럼'Age'에 있는 값들의 데이터 타입은 무엇일까?

 

 

df['칼럼명'].dtype

dtype은 이용하여 해당 칼럼의 데이터 타입을 확인해보면, 실수형(float) 임을 알 수 있다.

 

 

 

 


06. 결측치 개수 파악 :  isnull( ).sum( ) 

 

먼저, isnull( ) 을 사용하여 데이터 프레임에서의 결측치를 확인해보면 그 결과가 True(결측치) / False(결측치 아님)으로 나타난다. 하지만 이렇게 사용하면 결측치를 한눈에 파악하기 힘들어진다. 

 

 

 

따라서  isnull( ).sum( ) 을 같이 써줌으로써 각 칼럼 별로 결측치의 개수를 한 번에 볼 수 있다. 위의 결과를 보면 칼럼 'Age'에 결측치가 86개, 'Fare'칼럼에는 1개, 'Cabin'칼럼에는 327개의 결측치가 있음을 알 수 있다.

 

 

 

 


07. 각 컬럼별 데이터 수 & 데이터 타입을 한 번에 확인 : info( ) 

 

 

 

 


08. 수치형 변수의 분포 확인 :  describe( ) 

 

 describe( ) 를 사용하면 전체 데이터 프레임의 칼럼 중, 수치형 데이터를 가지고 있는 칼럼들만 추출하여 각 데이터들의 특성을 보여준다. 사분위, 평균, 표준편차, 최대값, 최솟값을 확인할 수 있다.

 

 

 

 


09. 특정 칼럼의 값 확인 :  df.['칼럼명'] 

 

이번에는 특정 칼럼에 있는 값들을 확인해보자. 전체 데이터 프레임에서 'Age'칼럼에 어떠한 값들이 들어있는지 확인해보려면 어떻게 해야 할까?

 

 

이러한 경우 [ ]를 사용하여 내가 확인하고 싶은 칼럼명을 적어주면 된다. 이때 각 값들이 출력되며, 동시에 해당 칼럼 값의 데이터 타입도 확인할 수 있다.

 

 

 

 


10. 특정 칼럼의 유일한 값 확인 : unique( ) 

이번에는 특정 칼럼에 있는 데이터들의 유일한 값을 확인해보자. 

 

 

 

 unique( ) 를 사용하여 'Pcalss'에 있는 유일 값을 확인해보면 3,2,1의 값이 들어있음을 알 수 있다. 즉 unique()는 칼럼에 있는 데이터 값의 종류를 확인하고 싶을 때 사용하는 방법이다. 

 

 

 

AttributeError: 'DataFrame' object has no attribute 'unique'

 

 unique( )를 적용할 때 주의할 점은 시리즈(series)형태(예를 들면 1개의 칼럼씩)에 적용해야 한다는 것이다. 위의 코드처럼 전체 데이터 프레임에 unique( )를 적용하게 되면 에러가 뜬다.

 

 

 

 


11. 특정 칼럼의 유일 값의 개수 확인 :  nunique( ) 

위의 내용에 이어서, 이번에는 특정 칼럼의 유일 값의 개수를 확인해보자. 아까 unique( )를 사용하여 'Pclass'에 있는 값들의 종류를 확인해 봤을 때 3,2,1로 총 3가지 종류의 값이 존재했다. 따라서 nunique() 사용하여 종류의 수를 확인해보면 3(=3가지 종류가 있다)이 출력된 것이다.

 

 

 

 

 

🖇 사용 한 데이터 다운로드

https://www.kaggle.com/c/titanic/data

반응형