[R] 4-2. 데이터 관측하기

4-2. 데이터 관측하기

수집한 데이터는 분석하기 전에 데이터의 특징을 확인해야 한다.
하지만, 데이터가 방대한 경우 (점점 데이터의 규모는 커져만 간다)
불러오는 데 많은 시간이 걸린다.
그래서 데이터 요약 방법을 이용한다.

# 데이터 전체 확인하기

# 내장 데이터 확인하기
data()
# 데이터 세트를 변수로 저장하기 ( iris 데이터 세트가 'iris' 라는 변수로 저장된다 )
data('iris')
iris

p.s) <promise> 태그 : RStudio 에서 큰 데이터 세트를 불러오는 경우 오류를 방지하기 위한 지연 계산법

# 데이터 구조 확인하기

# 데이터 구조 확인하기
str(iris)
	# num : 실수
	# factor w/ n levels : 범주형 데이터를 의미. levels 는 종류.

# 열 / 행 개수 & 이름 & 특정 부분만 확인하기

# 열 개수
ncol(iris)
# 행 개수
nrow(iris)
# 행 열 개수
dim(iris)
# length 함수 : 전체 데이터 입력 시, 열 개수 return
length(iris)
length(iris$Petal.Length) # 특정 열 입력 시, 행 개수 return
# 열 이름 (변수명)
ls(iris)
# 데이터 앞부분이나 뒷부분
# n은 데이터 앞/뒤의 관측치 몇 개를 불러올 것인지 지정 (기본값 6)
head(iris, n = 6)
tail(iris, n = 6)

# 기술통계량 확인하기

: 데이터를 요약한 대푯값. 특징적인 의미를 가진 수치로 요약하여 확인한다.

mean(열)	평균	이상치 영향 높음
median(열)	중앙값	이상치 영향 낮음
min(열) / max(열)	최소 / 최대	이상치 판단
range(열)	범위	최소 ~ 최대
quantile(열, probs = 0 ~ 1)	사분위수	추가 설명
var(열)	분산	산포도
sd(열)	표준편차	산포도 ( 다양한 계산에 활용 )
kurtosi(열)	첨도	정규분포 대비 중심에 몰려있는 정도 첨도 > 0 : 뾰족 첨도 < 0 : 완만
skew(열)	왜도	비대칭 정도 왜도 > 0 : 오른쪽 꼬리 왜도 < 0 : 왼쪽 꼬리
freq(열, plot = T)	빈도분석	몇 번 등장하고 비율은 어느 정도인지 plot = T : 기본값. 그래프 출력 제공

p.s) 데이터를 일직선상에 늘어놓는다면, 데이터 뒤에 n% 개의 데이터가 존재하는 경우

해당 데이터를 nth 퍼센타일이라고 한다. (n번째 퍼센타일) (퍼센타일 = 백분위수)

그리고, 25th, 50th, 75th, 100th 퍼센타일를 사분위수 (4등분시킨 수) 라고 한다.

영문 표기 : quantile(열, prob = 0 ~ 1) (prob*100 th 퍼센타일)

'Coding & Data Analysis > R' 카테고리의 다른 글

[R] 5-1. dplyr 패키지의 데이터 가공 함수 (0)	2024.08.15
[R] 4-3. 데이터 시각화 (0)	2024.08.14
[R] 4-1. 데이터 불러오기 (0)	2024.08.13
[R] 3-3. 조건문과 반복문 (0)	2024.08.12
[R] 3-1&2. 변수와 함수, 패키지 (0)	2024.08.12

'Coding & Data Analysis > R' 카테고리의 다른 글

티스토리툴바