[Python] 파이썬 데이터 분석 쌩 기본기 : 데이터 다루기
·
Coding & Data Analysis/Python
기본 코드 ~ 함수import pandas as pddf = pd.read_csv('iris.csv')df.head()👉 판다스 불러오고, 데이터프레임 받고 위의 일부 데이터 확인df.indexdf.columns👉 얘네 은근 중요!인덱스만 따로 뽑고 싶다면 df.index 객체df.columns : 열 이름 활용해서 쉽게 원하는 데이터 추출 가능df['sepal.length'].nlargest(3)df['variety'].unique()df['variety'].nunique()👉 활용도 높은 친구들nlargest : 가장 큰 수치 n개 / unique : 중복 제거한 값 추출 / nunique : 중복 제거한 값의 개수df[df.columns[2]][4:].head()👉 [ ] 안에 columns..
[Python] Apply 함수 : 복수 인자 사용하는 방법
·
Coding & Data Analysis/Python
활용한 데이터는 이렇고, 구현해야 하는 것은 "추천 점수" 열을 만드는 것이다.추천 점수 공식은 (평점)*(관객 수)/100 이다. 당연히 먼저 생각난 코드는 다음과 같다.df['추천점수'] = df['관객 수']*df['평점']/100df파이썬에서 df[열 이름] 은 거의 for 문을 넣은 것처럼연산 공식에 적용해서 새로운 열을 만들어낼 수 있기에 편리하다. 그런데 과연 apply 를 활용할 수는 없을까?일반적으로 나는 apply 와 lambda 를 써서 간단하게 한 개의 인수만 받는 코드를 썼지만'관객 수' 와 '평점' 두 변수를 어떻게 받을 수 있을까? 하나로 뭉쳐서 쪼개면 된다!def func(x): return x[0]*x[1]/100df['rec'] = df[['관객 수','평점']].app..
[Python] Colab 으로 데이터 분석 시작하기 - 중간 점검
·
Coding & Data Analysis/Python
오랜만에 티스토리에 공부 기록을 남겨보려 한다.R 공부를 끝마친 후에 Python 을 공부하는 것을 매일 업로드하려고 했지만생각보다 "공부 - 업로드 - 공부 - 업로드" 하는 게 효율이 참 안좋았다. 내 문제일 수도 있지만.. 그래서 좀 텀을 길게 잡고 가려고 한다.매일 공부한 것을 올리는 것보다는Colab에서 자체 제공하는 마크다운 기능을 활용해서 그때그때 메모를 한 다음에데이터 처리 / 시각화 / 인공지능 / 머신러닝 / 이미지 처리 등등큼지막한 주제별로 후기처럼 블로그에 남겨보려고 한다.  Colab 사용 후기장점은 확실한 것 같다. 1. R보다는 비교도 안될 정도의 거대한 커뮤니티당장 내가 학교에서 만난 '프로그래밍에 관심 있는' 사람들이나 그저 지인들한테 물어봐도R은 모르지만 파이썬은 잘 하시..
[Python] Colab 에서 데이터 확인하고 인코딩 오류 해결하기
·
Coding & Data Analysis/Python
간단하게 코랩을 시작하는 시간입니다.Python이라는 언어 자체는 매우 친숙한 언어이기 때문에 큰 문제는 없을 것 같고오히려 Colab이라는 서비스의 UI, 단축키, 마크다운 등에 익숙해지는 것이 관건일 것 같습니다.특히 VSCode와는 다르게 셀 단위의 코딩을 하기 때문에 많은 연습이 필요할 것 같습니다!  크게 데이터를 불러오는 방법을 두 가지로 나눌 수 있습니다.구글 드라이브 링크를 통해 불러오거나, 코랩에 업로드한 파일들을 불러오는 것입니다. 첫 번째 코드는 gdown 패키지를 활용해서 특정 사용자의 드라이브 파일을 불러옵니다.import gdowngdown.download('link','filename',quiet=False) # quiet 옵션 : 진행 상황 표시 유무 두 번째 코드는 코랩에 ..
최적의 아이돌 인스타 피드 만들기 : 2일차 (데이터 수집하기)
·
Project/최적의 인스타 피드
무엇을?주제는 이다. 그렇다면 무엇을 수집해야 하는가. 이 질문이 정말 중요하다.R 프로그래밍 언어에 대해 기본적인 숙지가 된 후 여러 주제를 생각해봤다." 야구 좋아하니까, 야구 데이터를 수집해볼까? " , " 기숙사에 사니까, 기숙사 엘레베이터 데이터는 어떨까? " 등.. 내가 생각한 좋은 데이터 분석 주제의 특징은 다음과 같다.이미 나와 있는 데이터도 좋지만, 내가 직접 수집해보는 과정까지 겪어보자.주제는 내가 필요에 의해 정하는 거지, 이미 나와있는 주제는 의미가 떨어진다.분석할 거리가 많은 주제면 좋다. (데이터 프레임의 열이 많아야 한다는 의미)다양한 시각화가 가능한 데이터꾸준하게 수집하기 용이한 데이터이미 수집 체계가 갖추어져 있지 않은 데이터야구는 사실 '통계의 스포츠' 라고 불릴 정도로..
최적의 아이돌 인스타 피드 만들기 : 1일차 (계획 짜기)
·
Project/최적의 인스타 피드
계기시작은 뭐 그냥 평범한 고민에서 이뤄진 것 같다. 평소에 응원하는 가수인 스테이씨의최근 국내 컴백 앨범인 'Metamorphic' 의 성적 저조 때문에 고민이 많았다. 노래가 그렇게 좋은데..  멜론 TOP100에서는 타이틀곡인 'Cheeky Icy Thang' 이 언제 들어왔는지 기억이 안 날 정도로 빠르게 사라졌고,HOT100에서 간신히 중위권 순위를 유지하다가 떨어지고 말았다.   음악적으로 신박한 도전을 한 것도 맞고, 타이틀곡이라는 무게에 비해선 가벼운 느낌이 있는 것도 맞다.하지만 나는 이번 앨범 뿐만이 아닌, 스테이씨라는 브랜드에 대해 고민해보았다. 작년 8월 16일. 그때 나는 고등학교 3학년이였고스터디카페에서 공부를 하다가 컴백 시간에 맞게 그 당시 컴백 타이틀인 'Bubble' 을 ..