반응형
01. csv 파일
csv는 'Comma-separated values'라는 의미로, 각 값들이 콤마(,)로 구분된 텍스트 파일 포맷이다.
확장자는 .csv이다.
〰️사용 예시
import pandas as pd
pd.read_csv('data.csv')
csv파일은 pandas(판다스)에서 pd.read_csv로 불러올 수 있다.
02. tsv파일
tsv파일은 csv파일과 비슷하지만, 각 값들을 Tab으로 구분하는 파일 포맷을 의미하며, 확장자는 .tsv이다.
2-1. 사용 예시
〰️sep = ', '로 설정
import pandas as pd
df = pd.read_csv('data.tsv')
df
tsv 파일을 pd.read_csv로 불러왔을 때 ParserError가 발생하였다.
pd.read_csv( )에서 sep는 기본적으로 콤마(,)로 설정되어있다.
이때 sep는 여러 종류가 있는데, 이 설정을 바꿔보도록 하자
〰️ sep='\t'로 설정
df = pd.read_csv('data.tsv', sep='\t')
df
tsv파일을 불러오는 과정에서 sep='\t'로 설정하게 되면 위와 같이 정상적으로 데이터가 불러와지는 것을 확인할 수 있다.
〰️sep= '|'로 설정
df = pd.read_csv('data.tsv', sep='|')
df
이번에는 sep = '|'로 설정하였을 때 위와 같은 결과가 나온 것을 확인할 수 있다.
결론적으로 tsv파일은 각 데이터가 tab을 기준으로 구분지어졌기 때문에
sep를 '\t'로 설정해주어야한다.
이처럼 확장자에 맞는 구분자를 적어주어야 하는것을 알 수 있다.
🖇참고문헌
https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
반응형
'💻프로그래밍 > python' 카테고리의 다른 글
파이썬 데이터 이상치(outlier) 제거 방법, 박스플롯(Boxplot) IQR (0) | 2022.12.07 |
---|---|
[pandas] str.split(expand=Ture) : 하나의 columns를 여러개로 나누기 (0) | 2022.11.21 |
[pandas]특정 문자를 포함하는 행 추출 (1) | 2022.11.03 |
[pandas] DataFrame.mean( ) 데이터프레임 열과 행 별 평균 구하기 (0) | 2022.10.23 |
[파이썬] Unnamed: 0없이 csv파일 불러오기 (index_col=0) (0) | 2022.09.09 |