[파이썬] 분류 모델을 위한 EDA/학습/평가/파라미터튜닝 : 심장병 데이터셋
·
Coding & Data Analysis/Python
인트로수치형 데이터는 주식 데이터 분석을 해보기도 했고, 사실 직관적으로 EDA, 모델 학습 등이 보인다.시각화하기 가장 좋은 데이터 유형이기도 하고. 많이 보이는 데이터 유형이기도 하다.그래서 항상 범주형 데이터에 대한 갈망과 부족함이 있었다고 생각한다. 내가 잘 못다루기도 하고..심장병 데이터셋을 분석하면서 그 갈망을 어느정도 충족해보려고 한다. 핵심 코드 1 : EDAplt.figure(figsize = (12,12))for i, column in enumerate(category_values, start = 1): plt.subplot(3,3,i) data.loc[data['target']==1, column].hist(alpha = 0.5, color = 'red', label = '..
[파이썬/머신러닝] RandomForest 와 GradientBoosting
·
Coding & Data Analysis/Python
개요구조가 비슷한 두 머신러닝 기법을 알아볼 것이다. RandomForestRegressor 와 GradientBoostingRegressor.두 모델 모두 앙상블 (여러 하위 모델들을 학습시켜 하나의 강한 모델을 만드는 기법) 에 포함된다.기존 모델들의 과적합이나 편향을 없애기 위해 여러 모델을 시도하는 것은 중요하다.그렇기에 우리는 다양한 모델을 알아두어야 된다고 생각한다. 데이터 문해력을 위해!  RandomForestRegressor기존의 의사결정 나무는 하나의 큰 나무에 여러 가지 질문을 넣어서 모델을 구성한 후,모든 데이터를 넣어 결과를 보는 방식이라고 축약하여 설명할 수 있다.처음부터 최적의 질문으로 시작한 후, 단계별로 다양한 질문을 거친다.그렇기에 과하게 정확한, 과적합 우려가 발생한다고..
[파이썬/Python] Seaborn + Matplotlib 으로 시각화 총정리 (1)
·
Coding & Data Analysis/Python
개요파이썬의 시각화 라이브러리 하면 Matplotlib 이지만, 코드가 너무 자유로운 탓에 다양한 시각화를 하기엔코드가 길어질 수 있다. Heatmap, Grid 등 유용한 플롯들을 코드 한두줄로 작성할 수 있는 Seaborn과 함께Matplotlib 을 활용하면 훨씬 더 쉽게 데이터를 시각화하여 인사이트를 얻을 수 있다.Matplotlib 의 업그레이드 버전이자 좀 더 쉽게 사용할 수 있는 도구 느낌으로 받아들이면 된다.이 글의 정보만 잘 알아도 Seaborn을 활용하는데 무리가 없다! 기본 세팅import matplotlib.pyplot as pltimport seaborn as sns임포트 : 데이터 시각화는 이 둘을 사용하는게 맞다. # built-in datasetssns.get_dataset_..
[Python/파이썬] 미국 경제 데이터로 배우는 머신러닝 <K-평균>
·
Coding & Data Analysis/Python
이 글은..머신러닝의 분류 중 비지도학습에 해당하는 분석법인 "K-평균(K-Means)" 를 활용하여 R의 라이브러리인ggplot2 의 economics 데이터를 분석합니다. 이론적인 내용부터 코드 설명까지 전부 다룹니다. 최종 결과는 지출에 따른 저축 비율을 바탕으로 미국 인구를 4개의 집단으로 나누고 시각화합니다.분류와 회귀를 모두 활용하여 데이터에 대한 인사이트를 얻을 수 있습니다.  데이터R의 ggplot2 라이브러리의 "economics" 데이터를 활용했습니다. https://ggplot2.tidyverse.org/reference/economics.html US economic time series — economicsThis dataset was produced from US economic..
[파이썬] iris 데이터셋으로 머신러닝 배우기 <로지스틱 회귀>
·
Coding & Data Analysis/Python
로지스틱 회귀 (Logistic Regression)단순 선형회귀, 다중 선형회귀, 다항 회귀 모두 수치적인 데이터를 다뤘다면,로지스틱 회귀는 범주형 데이터를 다룬다. 독립변수에 따라 종속변수가 어디로 분류되어야 하는가의 문제.애초에 "Logistics" 가 물류를 의미하는 만큼 닉값을 하는듯.. 원리는 간단하게 보면 다음과 같다.선형회귀는 값 그 자체를 y축에 표시하지만, 로지스틱 회귀는 y축에 확률을 표시한다.그리고 확률이 50%가 넘어가는지의 여부에 따라 범주를 구분한다.위에 표시된 곡선은 "시그모이드 함수(Sigmoid Function)" 이라고 부른다.   데이터 및 전처리from sklearn.datasets import load_irisiris = load_iris()df = pd.DataF..
[오답노트] Python에서 for 문으로 matplotlib 그래프 겹치기 w. 머신러닝
·
Coding & Data Analysis/Python
구현하고자 하는 것맨날 plt.plot 이나 scatter 으로 일일히 겹치는 건 지루하다!! for 문으로 그래프 드르륵 탁!(for 문을 활용해서 다항 회귀의 차수에 따른 그래프를 겹쳐서 그리기) 단계별 코드plt.figure()plt.scatter(X,y, c = '#2EC4B6', s = 20, alpha = 0.3)figure 랑 scatter 를 먼저 입력한다. figure 가 제일 위에 오는게 포인트! col = ['orange','blue','green','red']label = ['x^1','x^2','x^3','x^4']for x in range(1,5) : poly_reg_x = PolynomialFeatures(degree = x) #차수 X_deg = poly_reg_x..