인트로
데이터 유형에 따라 적합한 시각화 방법을 사용해야
사용자에게 데이터의 정수를 잘 전달할 수 있다.
결국엔, 데이터는 ' 현대 사회의 언어 ' 라고 할 수 있다.
막대그래프
막대그래프는 주로 빈도 분석을 빠르게 할 때 사용된다.
함수 : freq( ) , barplot( ), table( )
library(descr) # freq
library(readxl) # read_excel
data <- read_excel('C:/')
# main 변수 : 그래프 제목
freq(data$column,plot=T,main='title')
barplot 함수 : 패키지 없이 그래프 사용 가능. table( ) 함수와 함께 사용해야 한다.
아래의 옵션들은 다른 여러 시각화 그래프에도 사용이 가능하다.
- ylim : 출력할 y축의 범위를 벡터 형태로 지정한다. (c 함수 사용)
- main : 제목
- xlab , ylab : 축 제목
- names : 컬럼 제목을 벡터 형태로 지정한다.
- col : 그래프 색상을 벡터 형태로 지정한다.
table 함수는 데이터의 열을 table ( 가로 방향으로 빈도를 늘어놓는 방식 ) 방식으로 바꿔주기에
빈도분포를 구하는 기능이 없는 함수 (barplot, pie 함수) 와 함께 사용한다.
# 빈도분석
dist <- table(data$column)
# 그래프
barplot(dist,ylim=c(0,10),main='title',
xlab='x',ylab='y',names=c('x1','x2','x3'),col=c('#000000','#111111','#222222')
p.s ) rgb 함수를 통해 rgb값도 불러올 수 있다. rgb( 0,0,0,maxColorValue = 255 )
박스 플롯
데이터 분포를 확인하고 이상치를 판단할 때 주로 사용한다.
최댓값, 최솟값, 1,2,3사분위수, 중앙값, 이상치를 시각화한다.
함수: boxplot( )
boxplot(data$column,main='title',xlab='x',ylab='y')
히스토그램
연속형 데이터를 일정하게 나눈 구간을 가로 축으로, 빈도를 세로 축으로 그린 그래프이다.
구간별 관측치를 빠르게 확인할 수 있다.
함수 : hist( )
히스토그램 | 막대그래프 |
연속형 데이터 | 이산형 데이터 (범주형) |
키, 나이, 금액 등 | 성별, 지역, 범주 |
그래프 막대가 붙어있음 | 그래프 막대가 분리됨 |
hist(data$column,xlab='x',ylab='y')
파이 차트
범주 구성 비례에 따라 파이 조각을 나누는 것처럼 표현하는 그래프.
빈도 분석 기능이 없기 때문에 table 함수를 활용한다.
함수 : pie( )
x <- table(data$column)
pie(x,col=c('#000000'))
줄기 / 잎 그림
변수 값을 자릿수로 분류하여 시각화하는 방법.
함수 : stem( )
산점도
산포도라고도 부른다. 연속형 숫자 변수일 때, 두 변수 간 관계를 점으로 나타냄으로써 상관관계를 파악할 수 있다.
함수 : plot(x,y), pairs( ), pairs.panel( )
- plot : 일반 산점도
- pairs : 모든 변수들의 산점도 관계를 행렬로 나타냄.
- pairs.panel : pairs 함수에 다양한 수치 추가 (히스토그램, 곡선 그래프, 상관계수 등)
plot(x=data$column1 , y=data$column2)
pairs(data)
# pairs.panel 함수 : 패키지 따로 필요
library(psych)
pairs.panel(data)
'Coding & Data Analysis > R' 카테고리의 다른 글
[R] 5-2. 데이터 가공하기 (0) | 2024.08.15 |
---|---|
[R] 5-1. dplyr 패키지의 데이터 가공 함수 (0) | 2024.08.15 |
[R] 4-2. 데이터 관측하기 (0) | 2024.08.13 |
[R] 4-1. 데이터 불러오기 (0) | 2024.08.13 |
[R] 3-3. 조건문과 반복문 (0) | 2024.08.12 |