💻프로그래밍/python

[pandas] csv, tsv 파일

빅데희터 2022. 11. 15. 16:46
반응형

01. csv 파일

csv'Comma-separated values'라는 의미로, 각 값들이 콤마(,)로 구분된 텍스트 파일 포맷이다.

확장자는 .csv이다.

 

〰️사용 예시

import pandas as pd
pd.read_csv('data.csv')

csv파일은 pandas(판다스)에서 pd.read_csv로 불러올 수 있다.

 

 

 


02. tsv파일

tsv파일은 csv파일과 비슷하지만, 각 값들을 Tab으로 구분하는 파일 포맷을 의미하며, 확장자는 .tsv이다.

 

 

2-1. 사용 예시

 

〰️sep = ', '로 설정

import pandas as pd
df = pd.read_csv('data.tsv')
df

 

ParserError : Error tokenizing data. C error : Expected 1 fields in line 326, saw 2

tsv 파일을 pd.read_csv로 불러왔을 때 ParserError가 발생하였다. 

pd.read_csv( )에서 sep는 기본적으로 콤마(,)로 설정되어있다.

이때 sep는 여러 종류가 있는데, 이 설정을 바꿔보도록 하자

 

 

 

〰️ sep='\t'로 설정

df = pd.read_csv('data.tsv', sep='\t')
df

tsv파일을 불러오는 과정에서 sep='\t'로 설정하게 되면 위와 같이 정상적으로 데이터가 불러와지는 것을 확인할 수 있다.

 

 

 

 

〰️sep= '|'로 설정

df = pd.read_csv('data.tsv', sep='|')
df

이번에는 sep = '|'로 설정하였을 때 위와 같은 결과가 나온 것을 확인할 수 있다.

결론적으로 tsv파일은 각 데이터가 tab을 기준으로 구분지어졌기 때문에

sep를 '\t'로 설정해주어야한다.

이처럼 확장자에 맞는 구분자를 적어주어야 하는것을 알 수 있다.

 

 

 

 

 

🖇참고문헌

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

반응형