[파이썬] 야후 주식API와 파이썬으로 엔비디아 주가분석 (전처리/스케일링 편)
·
Project/주식 & 비트코인 분석
개요데이터분석에 대한 기본 개념과 파이썬이라는 언어에 익숙해졌다면, 여러 종류의 데이터를 가지고 연습을 해봐야실력이 늘기 마련이다. 여러 도메인 (경제, 사회, 자연어, 정치 등) 에 대한 지식을 쌓는 것과 동시에세상을 객관적으로 바라볼 수 있는 능력이 새기는 것이 데이터 분석의 매력인 것 같다.이번 글에서는, 야후에서 제공하는 주가 데이터를 파이썬을 통해 전처리, 시각화, 예측 등을 해볼 것이다.요즘 엔비디아와 관련해서 많은 이야기들이 오고 가는 것 같다. 객관적인 시각이 중요한 시점이다. (사용하는 라이브러리 : pandas, matplotlib, seaborn, sklearn, yfinance)  데이터 생성import numpy as npimport matplotlib.pyplot as pltim..
[파이썬/머신러닝] RandomForest 와 GradientBoosting
·
Coding & Data Analysis/Python
개요구조가 비슷한 두 머신러닝 기법을 알아볼 것이다. RandomForestRegressor 와 GradientBoostingRegressor.두 모델 모두 앙상블 (여러 하위 모델들을 학습시켜 하나의 강한 모델을 만드는 기법) 에 포함된다.기존 모델들의 과적합이나 편향을 없애기 위해 여러 모델을 시도하는 것은 중요하다.그렇기에 우리는 다양한 모델을 알아두어야 된다고 생각한다. 데이터 문해력을 위해!  RandomForestRegressor기존의 의사결정 나무는 하나의 큰 나무에 여러 가지 질문을 넣어서 모델을 구성한 후,모든 데이터를 넣어 결과를 보는 방식이라고 축약하여 설명할 수 있다.처음부터 최적의 질문으로 시작한 후, 단계별로 다양한 질문을 거친다.그렇기에 과하게 정확한, 과적합 우려가 발생한다고..
[파이썬/Python] Seaborn + Matplotlib 으로 시각화 총정리 (1)
·
Coding & Data Analysis/Python
개요파이썬의 시각화 라이브러리 하면 Matplotlib 이지만, 코드가 너무 자유로운 탓에 다양한 시각화를 하기엔코드가 길어질 수 있다. Heatmap, Grid 등 유용한 플롯들을 코드 한두줄로 작성할 수 있는 Seaborn과 함께Matplotlib 을 활용하면 훨씬 더 쉽게 데이터를 시각화하여 인사이트를 얻을 수 있다.Matplotlib 의 업그레이드 버전이자 좀 더 쉽게 사용할 수 있는 도구 느낌으로 받아들이면 된다.이 글의 정보만 잘 알아도 Seaborn을 활용하는데 무리가 없다! 기본 세팅import matplotlib.pyplot as pltimport seaborn as sns임포트 : 데이터 시각화는 이 둘을 사용하는게 맞다. # built-in datasetssns.get_dataset_..
[Python/파이썬] 미국 경제 데이터로 배우는 머신러닝 <K-평균>
·
Coding & Data Analysis/Python
이 글은..머신러닝의 분류 중 비지도학습에 해당하는 분석법인 "K-평균(K-Means)" 를 활용하여 R의 라이브러리인ggplot2 의 economics 데이터를 분석합니다. 이론적인 내용부터 코드 설명까지 전부 다룹니다. 최종 결과는 지출에 따른 저축 비율을 바탕으로 미국 인구를 4개의 집단으로 나누고 시각화합니다.분류와 회귀를 모두 활용하여 데이터에 대한 인사이트를 얻을 수 있습니다.  데이터R의 ggplot2 라이브러리의 "economics" 데이터를 활용했습니다. https://ggplot2.tidyverse.org/reference/economics.html US economic time series — economicsThis dataset was produced from US economic..
[파이썬] iris 데이터셋으로 머신러닝 배우기 <로지스틱 회귀>
·
Coding & Data Analysis/Python
로지스틱 회귀 (Logistic Regression)단순 선형회귀, 다중 선형회귀, 다항 회귀 모두 수치적인 데이터를 다뤘다면,로지스틱 회귀는 범주형 데이터를 다룬다. 독립변수에 따라 종속변수가 어디로 분류되어야 하는가의 문제.애초에 "Logistics" 가 물류를 의미하는 만큼 닉값을 하는듯.. 원리는 간단하게 보면 다음과 같다.선형회귀는 값 그 자체를 y축에 표시하지만, 로지스틱 회귀는 y축에 확률을 표시한다.그리고 확률이 50%가 넘어가는지의 여부에 따라 범주를 구분한다.위에 표시된 곡선은 "시그모이드 함수(Sigmoid Function)" 이라고 부른다.   데이터 및 전처리from sklearn.datasets import load_irisiris = load_iris()df = pd.DataF..
[오답노트] Python에서 for 문으로 matplotlib 그래프 겹치기 w. 머신러닝
·
Coding & Data Analysis/Python
구현하고자 하는 것맨날 plt.plot 이나 scatter 으로 일일히 겹치는 건 지루하다!! for 문으로 그래프 드르륵 탁!(for 문을 활용해서 다항 회귀의 차수에 따른 그래프를 겹쳐서 그리기) 단계별 코드plt.figure()plt.scatter(X,y, c = '#2EC4B6', s = 20, alpha = 0.3)figure 랑 scatter 를 먼저 입력한다. figure 가 제일 위에 오는게 포인트! col = ['orange','blue','green','red']label = ['x^1','x^2','x^3','x^4']for x in range(1,5) : poly_reg_x = PolynomialFeatures(degree = x) #차수 X_deg = poly_reg_x..