인트로
회귀분석은 독립변수와 종속변수 간의 상관관계를 구하는 매우 중요한 과정으로
데이터분석과 빅데이터, 혹은 인공지능에서도 핵심적인 분야로 여겨진다.
독립변수가 1개이면 단순회귀분석이라고 부르고, 2개 이상인 경우는 다중회귀분석으로 부른다.
단순회귀분석의 4가지 가정
- 선형성 : 두 변수 간에 일직선상의 관계가 있을 것이라고 가정.
- 독립성 : 데이터의 각 관측값들이 서로 영향이 없이 독립적이라고 가정.
- 정규분포 : 오차 ( 실제 값과 회귀분석된 값 사이의 차이 ) 가 정규분포를 따를 것.대부분 예측가능한 범위.
- 등분산성 : 오차의 분산이 일정할 것이라고 가정. 오차의 퍼짐도 예측가능한 범위.
단순회귀분석의 흐름 : 상관분석 → 절편과 기울기 구하기 → 사선 그리기
상관분석
함수를 통해 두 변수의 관계를 나타내는 직선을 그리기 위해서는
먼저 그 변수들이 실제로 상관관계를 가지는가? 에 대해 알아야 한다.
# p-value , 상관계수를 구할 수 있는 cor.test 함수
cor.test(exdata1$col1 , exdata$col2)
# p-value : 두 변수 간 상관관계가 의미가 있는지 판단하는 검정통계량. 값이 0.05보다 작으면 유의.
절편과 기울기 구하기
상관계수가 1에 가깝게 나오고 p값도 문제가 없다면 실제로 기울기와 절편을 구하면 된다.
중요한 과정은, 특정 함수를 활용해서 해당 값들을 바로 geom_abline 함수에 넣는 코드이다.
# lm 함수 ( 종속변수 ~ 독립변수 , 데이터 = 데이터 )
reg_result <- lm(col2 ~ col1, data = exdata1)
reg_result
# 이 상태의 호출값은 바로 geom_abline 함수에 사용하지 못하기 때문에, coef 함수를 함께 사용한다.
ggplot + geom_point + geom_abline(intercept = coef(reg_result)[1], slope = coef(reg_result)[2])
다중회귀분석이란?
오늘 다루지 않았지만 언젠간 다룰 예정일 다중회귀분석 개념을 간단하게 설명해보자면,
단순회귀모형의 직선은 y = ax 형태이다. ( 독립변수 1개 )
다중회귀모형의 함수는 y = ax1 + bx2 + cx3 .... 형태이다. ( 독립변수 n개 )
예를 들어, 집값이 종속변수이고 금리, 통화량, 정치적 요소 등 여러 독립변수가 있는 상황이 있다.
'Coding & Data Analysis > R' 카테고리의 다른 글
[R] Excel 전처리 & 빈도분석 시각화 개념들 (0) | 2024.08.25 |
---|---|
[R] ggmap 패키지를 활용한 지도 시각화 (0) | 2024.08.21 |
[R] 6-2. 그래프에 객체 추가하기 (0) | 2024.08.20 |
[R] 6 -1. ggplot2 패키지 (데이터 시각화) (0) | 2024.08.18 |
[R] 5-4. 데이터 정제하기 (1) | 2024.08.16 |