4-2. 데이터 관측하기
수집한 데이터는 분석하기 전에 데이터의 특징을 확인해야 한다.
하지만, 데이터가 방대한 경우 (점점 데이터의 규모는 커져만 간다)
불러오는 데 많은 시간이 걸린다.
그래서 데이터 요약 방법을 이용한다.
# 데이터 전체 확인하기
# 내장 데이터 확인하기
data()
# 데이터 세트를 변수로 저장하기 ( iris 데이터 세트가 'iris' 라는 변수로 저장된다 )
data('iris')
iris
p.s) <promise> 태그 : RStudio 에서 큰 데이터 세트를 불러오는 경우 오류를 방지하기 위한 지연 계산법
# 데이터 구조 확인하기
# 데이터 구조 확인하기
str(iris)
# num : 실수
# factor w/ n levels : 범주형 데이터를 의미. levels 는 종류.
# 열 / 행 개수 & 이름 & 특정 부분만 확인하기
# 열 개수
ncol(iris)
# 행 개수
nrow(iris)
# 행 열 개수
dim(iris)
# length 함수 : 전체 데이터 입력 시, 열 개수 return
length(iris)
length(iris$Petal.Length) # 특정 열 입력 시, 행 개수 return
# 열 이름 (변수명)
ls(iris)
# 데이터 앞부분이나 뒷부분
# n은 데이터 앞/뒤의 관측치 몇 개를 불러올 것인지 지정 (기본값 6)
head(iris, n = 6)
tail(iris, n = 6)
# 기술통계량 확인하기
: 데이터를 요약한 대푯값. 특징적인 의미를 가진 수치로 요약하여 확인한다.
mean(열) | 평균 | 이상치 영향 높음 |
median(열) | 중앙값 | 이상치 영향 낮음 |
min(열) / max(열) | 최소 / 최대 | 이상치 판단 |
range(열) | 범위 | 최소 ~ 최대 |
quantile(열, probs = 0 ~ 1) | 사분위수 | 추가 설명 |
var(열) | 분산 | 산포도 |
sd(열) | 표준편차 | 산포도 ( 다양한 계산에 활용 ) |
kurtosi(열) | 첨도 | 정규분포 대비 중심에 몰려있는 정도 첨도 > 0 : 뾰족 첨도 < 0 : 완만 |
skew(열) | 왜도 | 비대칭 정도 왜도 > 0 : 오른쪽 꼬리 왜도 < 0 : 왼쪽 꼬리 |
freq(열, plot = T) | 빈도분석 | 몇 번 등장하고 비율은 어느 정도인지 plot = T : 기본값. 그래프 출력 제공 |
p.s) 데이터를 일직선상에 늘어놓는다면, 데이터 뒤에 n% 개의 데이터가 존재하는 경우
해당 데이터를 nth 퍼센타일이라고 한다. (n번째 퍼센타일) (퍼센타일 = 백분위수)
그리고, 25th, 50th, 75th, 100th 퍼센타일를 사분위수 (4등분시킨 수) 라고 한다.
영문 표기 : quantile(열, prob = 0 ~ 1) (prob*100 th 퍼센타일)
'Coding & Data Analysis > R' 카테고리의 다른 글
[R] 5-1. dplyr 패키지의 데이터 가공 함수 (0) | 2024.08.15 |
---|---|
[R] 4-3. 데이터 시각화 (0) | 2024.08.14 |
[R] 4-1. 데이터 불러오기 (0) | 2024.08.13 |
[R] 3-3. 조건문과 반복문 (0) | 2024.08.12 |
[R] 3-1&2. 변수와 함수, 패키지 (0) | 2024.08.12 |