💻프로그래밍/python
[pandas] csv, tsv 파일
빅데희터
2022. 11. 15. 16:46
반응형
01. csv 파일
csv는 'Comma-separated values'라는 의미로, 각 값들이 콤마(,)로 구분된 텍스트 파일 포맷이다.
확장자는 .csv이다.
〰️사용 예시
import pandas as pd
pd.read_csv('data.csv')
csv파일은 pandas(판다스)에서 pd.read_csv로 불러올 수 있다.
02. tsv파일
tsv파일은 csv파일과 비슷하지만, 각 값들을 Tab으로 구분하는 파일 포맷을 의미하며, 확장자는 .tsv이다.
2-1. 사용 예시
〰️sep = ', '로 설정
import pandas as pd
df = pd.read_csv('data.tsv')
df
tsv 파일을 pd.read_csv로 불러왔을 때 ParserError가 발생하였다.
pd.read_csv( )에서 sep는 기본적으로 콤마(,)로 설정되어있다.
이때 sep는 여러 종류가 있는데, 이 설정을 바꿔보도록 하자
〰️ sep='\t'로 설정
df = pd.read_csv('data.tsv', sep='\t')
df
tsv파일을 불러오는 과정에서 sep='\t'로 설정하게 되면 위와 같이 정상적으로 데이터가 불러와지는 것을 확인할 수 있다.
〰️sep= '|'로 설정
df = pd.read_csv('data.tsv', sep='|')
df
이번에는 sep = '|'로 설정하였을 때 위와 같은 결과가 나온 것을 확인할 수 있다.
결론적으로 tsv파일은 각 데이터가 tab을 기준으로 구분지어졌기 때문에
sep를 '\t'로 설정해주어야한다.
이처럼 확장자에 맞는 구분자를 적어주어야 하는것을 알 수 있다.
🖇참고문헌
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
반응형