데이터를 불러왔다면, 기본적으로 데이터를 파악하는 과정을 거치게 된다. 따라서 이번 게시물에서는 데이터를 파악하는 기본적인 방법들에 대해 정리하고자 한다.
🖇 (참고 : 데이터 불러오는 방법 (클릭))
01. 상위 5개의 행 출력 : head( )
df.head()
head( ) 를 사용하면 전체 데이터 프레임에서 상위 5개의 행을 출력한다.
이때 ( )안에 숫자를 적어주면 그 숫자 만큼의 행을 출력해준다. 이 경우 괄호( )안에 2를 적어 상위 2개의 행만 출력되었음을 알 수 있다.
02. 하위 5개의 행 출력 : tail( )
df.tail()
head( )와 반대로 tail( ) 은 하위 5개의 행을 출력한다. 이때 head()와 마찬가지로 ( )안에 숫자를 적어주면 그 숫자만큼의 하위 행을 출력한다.
03. 행, 열 개수 확인 : shape( )
df.shape
이때 행(row)의 갯수는 418개, 열(column)의 개수는 11개라고 해석하면 된다. shape뒤에 ( )는 붙이지 않는 것을 주의
04. 전체 칼럼 출력 : .columns
이번에는 전체 데이터 프레임에서 어떤 칼럼이 있는지 확인해보자
df.columns
columns 를 사용하면 칼럼들을 확인할 수 있다. columns 뒤에 괄호( )는 사용하지 않는다는 것을 주의하자.
05. 특정 칼럼의 데이터 타입 확인 : dtype
전체 데이터 프레임 중, 특정 칼럼에 있는 데이터들의 타입이 궁금할때는 dtype 을 사용하면 된다. 그렇다면 칼럼'Age'에 있는 값들의 데이터 타입은 무엇일까?
df['칼럼명'].dtype
dtype은 이용하여 해당 칼럼의 데이터 타입을 확인해보면, 실수형(float) 임을 알 수 있다.
06. 결측치 개수 파악 : isnull( ).sum( )
먼저, isnull( ) 을 사용하여 데이터 프레임에서의 결측치를 확인해보면 그 결과가 True(결측치) / False(결측치 아님)으로 나타난다. 하지만 이렇게 사용하면 결측치를 한눈에 파악하기 힘들어진다.
따라서 isnull( ).sum( ) 을 같이 써줌으로써 각 칼럼 별로 결측치의 개수를 한 번에 볼 수 있다. 위의 결과를 보면 칼럼 'Age'에 결측치가 86개, 'Fare'칼럼에는 1개, 'Cabin'칼럼에는 327개의 결측치가 있음을 알 수 있다.
07. 각 컬럼별 데이터 수 & 데이터 타입을 한 번에 확인 : info( )
08. 수치형 변수의 분포 확인 : describe( )
describe( ) 를 사용하면 전체 데이터 프레임의 칼럼 중, 수치형 데이터를 가지고 있는 칼럼들만 추출하여 각 데이터들의 특성을 보여준다. 사분위, 평균, 표준편차, 최대값, 최솟값을 확인할 수 있다.
09. 특정 칼럼의 값 확인 : df.['칼럼명']
이번에는 특정 칼럼에 있는 값들을 확인해보자. 전체 데이터 프레임에서 'Age'칼럼에 어떠한 값들이 들어있는지 확인해보려면 어떻게 해야 할까?
이러한 경우 [ ]를 사용하여 내가 확인하고 싶은 칼럼명을 적어주면 된다. 이때 각 값들이 출력되며, 동시에 해당 칼럼 값의 데이터 타입도 확인할 수 있다.
10. 특정 칼럼의 유일한 값 확인 : unique( )
이번에는 특정 칼럼에 있는 데이터들의 유일한 값을 확인해보자.
unique( ) 를 사용하여 'Pcalss'에 있는 유일 값을 확인해보면 3,2,1의 값이 들어있음을 알 수 있다. 즉 unique()는 칼럼에 있는 데이터 값의 종류를 확인하고 싶을 때 사용하는 방법이다.
AttributeError: 'DataFrame' object has no attribute 'unique'
unique( )를 적용할 때 주의할 점은 시리즈(series)형태(예를 들면 1개의 칼럼씩)에 적용해야 한다는 것이다. 위의 코드처럼 전체 데이터 프레임에 unique( )를 적용하게 되면 에러가 뜬다.
11. 특정 칼럼의 유일 값의 개수 확인 : nunique( )
위의 내용에 이어서, 이번에는 특정 칼럼의 유일 값의 개수를 확인해보자. 아까 unique( )를 사용하여 'Pclass'에 있는 값들의 종류를 확인해 봤을 때 3,2,1로 총 3가지 종류의 값이 존재했다. 따라서 nunique()를 사용하여 종류의 수를 확인해보면 3(=3가지 종류가 있다)이 출력된 것이다.
🖇 사용 한 데이터 다운로드
'💻프로그래밍 > python' 카테고리의 다른 글
판다스(pandas)에서 timedelta를 int로 변환 하는 방법 (0) | 2021.07.13 |
---|---|
[pandas] 4. 데이터 정렬 (sort_values, sort_index, by, ascending) (0) | 2021.06.16 |
[pandas] 2-2. loc와 iloc 차이와 사용방법 (0) | 2021.06.15 |
[pandas] 2-1. loc와 iloc 차이와 사용방법 (0) | 2021.06.14 |
[pandas] 1. csv파일 불러오기(pd.read_csv) / 내보내기(df.to_csv) 사용법 (sep, skiprows, index_col, utf-8, cp949, na_values, names) (0) | 2021.06.14 |