[Python] Colab 에서 데이터 확인하고 인코딩 오류 해결하기

2024. 9. 8. 02:16·Coding & Data Analysis/Python

 

< 인트로 >

간단하게 코랩을 시작하는 시간입니다.

Python이라는 언어 자체는 매우 친숙한 언어이기 때문에 큰 문제는 없을 것 같고

오히려 Colab이라는 서비스의 UI, 단축키, 마크다운 등에 익숙해지는 것이 관건일 것 같습니다.

특히 VSCode와는 다르게 셀 단위의 코딩을 하기 때문에 많은 연습이 필요할 것 같습니다!

 

 

< 데이터 확인 >

크게 데이터를 불러오는 방법을 두 가지로 나눌 수 있습니다.

구글 드라이브 링크를 통해 불러오거나, 코랩에 업로드한 파일들을 불러오는 것입니다.

 

첫 번째 코드는 gdown 패키지를 활용해서 특정 사용자의 드라이브 파일을 불러옵니다.

import gdown
gdown.download('link','filename',quiet=False) # quiet 옵션 : 진행 상황 표시 유무

 

두 번째 코드는 코랩에 있는 데이터를 불러옵니다.

with open('filepath') as f:
	print(f.readline())

 

물론 open 함수를 활용해서 파일을 열 수도 있지만,

데이터프레임을 다루는 Pandas 패키지를 활용해 더욱 유동적인 대처가 가능합니다.

import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/library_csv_data.csv',
					encoding='EUC-KR',low_memory=False)

# low_memory 옵션 : 열 이름에 기반해서 일일히 데이터 유형을 파악하는 작업을 중단시킴. 한번에처리
# 아예 데이터 타입을 설정하는 방법도 있음. dtype={}
# header = None (첫행 열이름 아닌 경우)
# names = [] (열이름 따로 제공)
# read_table 함수 (탭 구분자 파일 읽기) = read_csv(sep='\t')

 

주의)

코랩은 기본적으로 UTF-8 형식의 데이터를 읽기 때문에 EUC-KR 파일인 경우

불러오는 메서드를 사용할 때 인코딩 옵션을 설정해야 합니다.

"이 파일의 인코딩은 어떻게 되어있지?" 확인하는 코드는 다음과 같습니다.

import chardet
with open('/content/sample_data/library_csv_data.csv',mode='rb') as f:
  print(chardet.detect(f.readline()))

 

to_csv 메서드를 통해 데이터를 csv 파일로 저장할 수 있습니다.

저장하는 경우, UTF-8 형식으로 저장되기 때문에 굳이 다시 불러올때 인코딩 옵션을 안 넣어도 됩니다.

df.to_csv('practice_data_1',index=False)
# index 옵션 : 인덱스 나타내주는 열 생성 안하게 설정
with open('practice_data_1',mode='r') as f:
  for x in range(3):
    print(f.readline(),end='')
    # 기본적으로 print 문은 줄바꿈 문자를 기본적으로 탑재한다.
    # end 옵션을 없앰으로써 csv 파일에 기본적으로 있는 줄바꿈 하나만 적용되는 것!
test_df = pd.read_csv('practice_data_1',low_memory=False,index_col=0)
test_df.head()
# index_col : 인덱스를 나타내는 열 미리 정해놓기

 

 

 

.

'Coding & Data Analysis > Python' 카테고리의 다른 글

[Python] Apply 함수 : 복수 인자 사용하는 방법  (1) 2024.09.15
[Python] Colab 으로 데이터 분석 시작하기 - 중간 점검  (0) 2024.09.15
[Python] 개강 후 첫 번째 공부 : Colab 으로 파이썬 데이터 분석 준비  (1) 2024.09.03
[Python] 멜론 차트 TOP100 스크래퍼  (0) 2024.08.10
[Python] 경로와 확장자를 인수로 받는 간단한 파일 검색기  (0) 2024.07.15
'Coding & Data Analysis/Python' 카테고리의 다른 글
  • [Python] Apply 함수 : 복수 인자 사용하는 방법
  • [Python] Colab 으로 데이터 분석 시작하기 - 중간 점검
  • [Python] 개강 후 첫 번째 공부 : Colab 으로 파이썬 데이터 분석 준비
  • [Python] 멜론 차트 TOP100 스크래퍼
흑석동사는시골쥐
흑석동사는시골쥐
문과 경영학도 숫자 배우기 프로젝트
  • 흑석동사는시골쥐
    NaN
    흑석동사는시골쥐
  • 전체
    오늘
    어제
  • 링크

    • 독서 일지
    • 올리고 싶은 거 올려요
    • 분류 전체보기 (75)
      • Coding & Data Analysis (52)
        • Python (23)
        • R (21)
        • Excel & Data (2)
        • Git & Github (4)
        • Certificate (2)
      • Project (15)
        • 일자리 스크래핑 서비스 (8)
        • 최적의 인스타 피드 (2)
        • 주식 & 비트코인 분석 (5)
      • Economics (1)
        • 경제기사 스크랩 (1)
      • Records & Thoughts (6)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 공지사항

  • 인기 글

  • 태그

    FLASK
    코랩
    matplotlib
    개발
    웹스크래퍼
    git
    심장병 데이터
    파이썬
    Python
    다항회귀
    AI반도체
    데이터분석
    비전공자
    주식
    주가분석
    프로그래밍
    adsp공부법
    동아리
    데이터
    데이터수집
    머신러닝
    시각화
    엔비디아
    ADSP
    자격증
    지도
    기초
    전처리
    Colab
    r
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
흑석동사는시골쥐
[Python] Colab 에서 데이터 확인하고 인코딩 오류 해결하기
상단으로

티스토리툴바