[Python] 파이썬 데이터 분석 쌩 기본기 : 데이터 다루기
·
Coding & Data Analysis/Python
기본 코드 ~ 함수import pandas as pddf = pd.read_csv('iris.csv')df.head()👉 판다스 불러오고, 데이터프레임 받고 위의 일부 데이터 확인df.indexdf.columns👉 얘네 은근 중요!인덱스만 따로 뽑고 싶다면 df.index 객체df.columns : 열 이름 활용해서 쉽게 원하는 데이터 추출 가능df['sepal.length'].nlargest(3)df['variety'].unique()df['variety'].nunique()👉 활용도 높은 친구들nlargest : 가장 큰 수치 n개 / unique : 중복 제거한 값 추출 / nunique : 중복 제거한 값의 개수df[df.columns[2]][4:].head()👉 [ ] 안에 columns..
[Python] 다중 막대 그래프와 array 오류 해결하기
·
Coding & Data Analysis/Python
( 아래의 코드는 R의 기본 데이터셋인 iris 를 활용했습니다 )index = np.arange(3)sb = 0.25c = ['#A39BA8','#B8C5D6','#EDF5FC']plt.bar(index - sb, df.groupby('variety')['sepal.length'].mean(), width = 0.2, color = c[0], edgecolor = 'black', label = 'sepal length')plt.bar(index, df.groupby('variety')['sepal.width'].mean(), width = 0.2, color = c[1], edgecolor = 'black', label = 'sepal width')plt.bar(index + sb, va..
[Python] Apply 함수 : 복수 인자 사용하는 방법
·
Coding & Data Analysis/Python
활용한 데이터는 이렇고, 구현해야 하는 것은 "추천 점수" 열을 만드는 것이다.추천 점수 공식은 (평점)*(관객 수)/100 이다. 당연히 먼저 생각난 코드는 다음과 같다.df['추천점수'] = df['관객 수']*df['평점']/100df파이썬에서 df[열 이름] 은 거의 for 문을 넣은 것처럼연산 공식에 적용해서 새로운 열을 만들어낼 수 있기에 편리하다. 그런데 과연 apply 를 활용할 수는 없을까?일반적으로 나는 apply 와 lambda 를 써서 간단하게 한 개의 인수만 받는 코드를 썼지만'관객 수' 와 '평점' 두 변수를 어떻게 받을 수 있을까? 하나로 뭉쳐서 쪼개면 된다!def func(x): return x[0]*x[1]/100df['rec'] = df[['관객 수','평점']].app..
[Python] Colab 으로 데이터 분석 시작하기 - 중간 점검
·
Coding & Data Analysis/Python
오랜만에 티스토리에 공부 기록을 남겨보려 한다.R 공부를 끝마친 후에 Python 을 공부하는 것을 매일 업로드하려고 했지만생각보다 "공부 - 업로드 - 공부 - 업로드" 하는 게 효율이 참 안좋았다. 내 문제일 수도 있지만.. 그래서 좀 텀을 길게 잡고 가려고 한다.매일 공부한 것을 올리는 것보다는Colab에서 자체 제공하는 마크다운 기능을 활용해서 그때그때 메모를 한 다음에데이터 처리 / 시각화 / 인공지능 / 머신러닝 / 이미지 처리 등등큼지막한 주제별로 후기처럼 블로그에 남겨보려고 한다.  Colab 사용 후기장점은 확실한 것 같다. 1. R보다는 비교도 안될 정도의 거대한 커뮤니티당장 내가 학교에서 만난 '프로그래밍에 관심 있는' 사람들이나 그저 지인들한테 물어봐도R은 모르지만 파이썬은 잘 하시..
[Python] Colab 에서 데이터 확인하고 인코딩 오류 해결하기
·
Coding & Data Analysis/Python
간단하게 코랩을 시작하는 시간입니다.Python이라는 언어 자체는 매우 친숙한 언어이기 때문에 큰 문제는 없을 것 같고오히려 Colab이라는 서비스의 UI, 단축키, 마크다운 등에 익숙해지는 것이 관건일 것 같습니다.특히 VSCode와는 다르게 셀 단위의 코딩을 하기 때문에 많은 연습이 필요할 것 같습니다!  크게 데이터를 불러오는 방법을 두 가지로 나눌 수 있습니다.구글 드라이브 링크를 통해 불러오거나, 코랩에 업로드한 파일들을 불러오는 것입니다. 첫 번째 코드는 gdown 패키지를 활용해서 특정 사용자의 드라이브 파일을 불러옵니다.import gdowngdown.download('link','filename',quiet=False) # quiet 옵션 : 진행 상황 표시 유무 두 번째 코드는 코랩에 ..
[Python] 개강 후 첫 번째 공부 : Colab 으로 파이썬 데이터 분석 준비
·
Coding & Data Analysis/Python
인트로9월 1일이 개강날이였고, 저는 학교에 적응을 마쳤으니 슬슬 포스팅을 정기적으로해보려고 노력하겠습니다. 그저 평범한 경영학과 학생이 본인이 관심있어하는 영역을 공부하는 기록이지만누군가는 배워갈 것들이 있을수도 있고, 누군가는 영감을 얻어 갈 것이라고 믿습니다.이번 글에는 Python 으로 데이터 분석을 하기 위한 기초 지식과 Colab 소개를 해보겠습니다.   숫자를 잘 다루는 거대한 비단뱀Python. 영어로 번역하면 '거대한 비단뱀' 이라는 뜻인데요, 창작자가 의도한 것인지는 몰라도현존하는 프로그래밍 언어 중 가장 광범위하고 많이 사용되는 언어라고 해도 과언이 아닙니다. 웹 및 앱 개발에서는 백엔드를 도맡아 서비스의 로직을 관리하고,스크래퍼같은 반복 구문 기반 프로그램을 구성하는 언어가 되기도 ..