[Python] Colab 에서 데이터 확인하고 인코딩 오류 해결하기

< 인트로 >

간단하게 코랩을 시작하는 시간입니다.

Python이라는 언어 자체는 매우 친숙한 언어이기 때문에 큰 문제는 없을 것 같고

오히려 Colab이라는 서비스의 UI, 단축키, 마크다운 등에 익숙해지는 것이 관건일 것 같습니다.

특히 VSCode와는 다르게 셀 단위의 코딩을 하기 때문에 많은 연습이 필요할 것 같습니다!

< 데이터 확인 >

크게 데이터를 불러오는 방법을 두 가지로 나눌 수 있습니다.

구글 드라이브 링크를 통해 불러오거나, 코랩에 업로드한 파일들을 불러오는 것입니다.

첫 번째 코드는 gdown 패키지를 활용해서 특정 사용자의 드라이브 파일을 불러옵니다.

import gdown
gdown.download('link','filename',quiet=False) # quiet 옵션 : 진행 상황 표시 유무

두 번째 코드는 코랩에 있는 데이터를 불러옵니다.

with open('filepath') as f:
	print(f.readline())

물론 open 함수를 활용해서 파일을 열 수도 있지만,

데이터프레임을 다루는 Pandas 패키지를 활용해 더욱 유동적인 대처가 가능합니다.

import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/library_csv_data.csv',
					encoding='EUC-KR',low_memory=False)

# low_memory 옵션 : 열 이름에 기반해서 일일히 데이터 유형을 파악하는 작업을 중단시킴. 한번에처리
# 아예 데이터 타입을 설정하는 방법도 있음. dtype={}
# header = None (첫행 열이름 아닌 경우)
# names = [] (열이름 따로 제공)
# read_table 함수 (탭 구분자 파일 읽기) = read_csv(sep='\t')

주의)

코랩은 기본적으로 UTF-8 형식의 데이터를 읽기 때문에 EUC-KR 파일인 경우

불러오는 메서드를 사용할 때 인코딩 옵션을 설정해야 합니다.

"이 파일의 인코딩은 어떻게 되어있지?" 확인하는 코드는 다음과 같습니다.

import chardet
with open('/content/sample_data/library_csv_data.csv',mode='rb') as f:
  print(chardet.detect(f.readline()))

to_csv 메서드를 통해 데이터를 csv 파일로 저장할 수 있습니다.

저장하는 경우, UTF-8 형식으로 저장되기 때문에 굳이 다시 불러올때 인코딩 옵션을 안 넣어도 됩니다.

df.to_csv('practice_data_1',index=False)
# index 옵션 : 인덱스 나타내주는 열 생성 안하게 설정

with open('practice_data_1',mode='r') as f:
  for x in range(3):
    print(f.readline(),end='')
    # 기본적으로 print 문은 줄바꿈 문자를 기본적으로 탑재한다.
    # end 옵션을 없앰으로써 csv 파일에 기본적으로 있는 줄바꿈 하나만 적용되는 것!

test_df = pd.read_csv('practice_data_1',low_memory=False,index_col=0)
test_df.head()
# index_col : 인덱스를 나타내는 열 미리 정해놓기

'Coding & Data Analysis > Python' 카테고리의 다른 글

[Python] Apply 함수 : 복수 인자 사용하는 방법 (1)	2024.09.15
[Python] Colab 으로 데이터 분석 시작하기 - 중간 점검 (0)	2024.09.15
[Python] 개강 후 첫 번째 공부 : Colab 으로 파이썬 데이터 분석 준비 (1)	2024.09.03
[Python] 멜론 차트 TOP100 스크래퍼 (0)	2024.08.10
[Python] 경로와 확장자를 인수로 받는 간단한 파일 검색기 (0)	2024.07.15

< 인트로 >

< 데이터 확인 >

'Coding & Data Analysis > Python' 카테고리의 다른 글

티스토리툴바