컴붕이의 감자 탈출기/혼공분석

[혼공분석]1주차_CSV파일의 이해

potato2brain 2025. 1. 9. 04:47

01 - 3 이 도서가 얼마나 인기가 좋을까요?

CSV 파일

csv 파일이란 ','로 구분된 텍스트 파일이다. 한 줄이 하나의 레코드이며 레코드는 콤마로 구분된 여러 필드 혹은 열로 구성된다. csv 파일의 장점은 여러가지 type의 정보들이 한 번에 저장 될 수 있다는 것이다. 

 

CSV 파일을 데이터프레임으로 읽기: read_csv()함수

import pandas as pd
df = pd.read_csv('파일 이름', encoding='EUC-KR', low_memory = False)

매개변수 'encoding=' 은 파일이 인코딩 된 것과 같은 것을 넣어줘야 한다.

read_csv의 default 인코딩 값은 'UTF-8'로 설정 돼 있어 'UTF-8'로 인코딩 된 파일이라면 상관없지만 오류가 생긴다면 그에 맞게 바꿔줘야 한다

인코딩 형식 확인 하는 방법은 https://potato2brain.tistory.com/6 참고

 

매개변수 'low_memory = '가 의미 하는 것은 파일을 나누어 읽는 것을 결정 하는 부분이다. default 값은 True로 설정되어 있다.

판다스의 경우 하나의 열이 하나의 데이터type으로 이루어져 있다면 문제가 생기지는 않지만 효율을 위해 CSV파일을 조금씩 나눠가며 읽는다. 이렇게 나눠가며 읽을 경우 type이 다른 두개의 열이 충돌해 오류를 범할 수 있기 때문에 조정해주는 것이다.

 

다만 파일이 너무 큰 경우 다 나눠 확인하면 너무 비효율적이기 때문에 'detype='이라는 매개변수로 미리 데이터 타입을 지정 해주는 방법도 있다

import pandas as pd
df = pd.read_csv('파일 이름', encoding='EUC-KR', low_memory = False, detype = {'열이름':str, '열이름':str})

 

 

숙제

P.081 4. 판다스 read_csv()함수의 매개변수 설명이 옳은 것은 무엇인가요?

정답 3. encoding 매개변수에 csv파일의 인코딩 방식을 지정할 수 있습니다.

 

선택과제

 

공공 데이터 세트를 찾을 수 있는 대표 사이트

1. 국내 사이트

2. 해외사이트

3. 온라인 포럼

  • 데이터 분석 커뮤니티
  • 캐글 코리아
  • 텐서플로 코리아
  • 파이토치 코리아
  • 사이킷런 코리아