[파이썬] iris 데이터셋으로 머신러닝 배우기 <다중선형회귀 & 평가지표>
·
Coding & Data Analysis/Python
데이터이번 글에서는 범주형 데이터를 사용하는 다중선형회귀를 다루기에, 수치와 범주를 모두 포함하는유용한 데이터셋인 R의 iris 를 활용합니다.import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisiris = load_iris()df = pd.DataFrame(iris.data, columns = iris.feature_names)df['species'] = iris.targetdf['species'] = df['species'].replace({0:'Setosa',1:'Versicolor',2:'Virginica'})사이킷런에서도 iris를 내장데이터셋으로 가지고 있기에 스근하게 가져와주기..load..
[파이썬] 미국 경제 데이터셋으로 머신러닝 배우기 2 <경사 하강법>
·
Coding & Data Analysis/Python
데이터R의 ggplot2 라이브러리의 "economics" 데이터를 활용했습니다. https://ggplot2.tidyverse.org/reference/economics.html US economic time series — economicsThis dataset was produced from US economic time series data available from https://fred.stlouisfed.org/. economics is in "wide" format, economics_long is in "long" format.ggplot2.tidyverse.org  경사하강법x = df.loc[:,'pce'].values.reshape(-1,1)y = df.loc[:,'psavert']..
[파이썬] 미국 경제 데이터셋으로 머신러닝 배우기 <선형회귀>
·
Coding & Data Analysis/Python
데이터R의 ggplot2 라이브러리의 "economics" 데이터를 활용했습니다. https://ggplot2.tidyverse.org/reference/economics.html US economic time series — economicsThis dataset was produced from US economic time series data available from https://fred.stlouisfed.org/. economics is in "wide" format, economics_long is in "long" format.ggplot2.tidyverse.org  배열(array)import numpy as nparray1 = np.array([[1, 2, 3], [4, 5, 6]])..
파이썬 데이터 분석 쌩 기본기 : matplotlib 시각화 기초 (2)
·
Coding & Data Analysis/Python
4번 예시value = []label = ['p','r','e','d','c']for x in label : y = (df['fl'] == x).mean() value.append(y)plt.figure(figsize=(5,5))plt.pie(value, labels = label, autopct = '%.2f%%', wedgeprops={'width':0.4,'edgecolor':'black'}, explode = [0] + [0.1] + [0]*3, pctdistance = 0.45)plt.show()👉 autopct : %.2f%% 는 소수점 뒤 2번째 자리까지 %붙여서 비율로 표시한다는 뜻.👉 explode : 파이차트의 파이 조각이 중앙에서 멀..
파이썬 데이터 분석 쌩 기본기 : matplotlib 시각화 기초 (1)
·
Coding & Data Analysis/Python
1번 예시val_c = df.groupby('fl')['cty'].mean()val_h = df.groupby('fl')['hwy'].mean()plt.figure(figsize = (10,5))plt.plot(df['fl'].unique(), val_c, c = 'red', lw = 1, alpha = 0.5, marker = 'o', ms = 3, mec = 'black', mfc = 'gray', ls = 'dotted', label = 'cty')plt.plot(df['fl'].unique(), val_h, c = 'blue', lw = 1, alpha = 0.5, marker = 'o', ms = 3, mec = 'black', mfc = 'gray', ..
[Python] 파이썬 데이터 분석 쌩 기본기 : 데이터 다루기
·
Coding & Data Analysis/Python
기본 코드 ~ 함수import pandas as pddf = pd.read_csv('iris.csv')df.head()👉 판다스 불러오고, 데이터프레임 받고 위의 일부 데이터 확인df.indexdf.columns👉 얘네 은근 중요!인덱스만 따로 뽑고 싶다면 df.index 객체df.columns : 열 이름 활용해서 쉽게 원하는 데이터 추출 가능df['sepal.length'].nlargest(3)df['variety'].unique()df['variety'].nunique()👉 활용도 높은 친구들nlargest : 가장 큰 수치 n개 / unique : 중복 제거한 값 추출 / nunique : 중복 제거한 값의 개수df[df.columns[2]][4:].head()👉 [ ] 안에 columns..