[R] 4-2. 데이터 관측하기

2024. 8. 13. 21:44·Coding & Data Analysis/R

4-2. 데이터 관측하기

수집한 데이터는 분석하기 전에 데이터의 특징을 확인해야 한다.
하지만, 데이터가 방대한 경우 (점점 데이터의 규모는 커져만 간다)
불러오는 데 많은 시간이 걸린다.
그래서 데이터 요약 방법을 이용한다.

 

# 데이터 전체 확인하기

# 내장 데이터 확인하기
data()
# 데이터 세트를 변수로 저장하기 ( iris 데이터 세트가 'iris' 라는 변수로 저장된다 )
data('iris')
iris

 

p.s) <promise> 태그 : RStudio 에서 큰 데이터 세트를 불러오는 경우 오류를 방지하기 위한 지연 계산법

 

# 데이터 구조 확인하기

# 데이터 구조 확인하기
str(iris)
	# num : 실수
	# factor w/ n levels : 범주형 데이터를 의미. levels 는 종류.

 

# 열 / 행 개수 & 이름 & 특정 부분만 확인하기

# 열 개수
ncol(iris)
# 행 개수
nrow(iris)
# 행 열 개수
dim(iris)
# length 함수 : 전체 데이터 입력 시, 열 개수 return
length(iris)
length(iris$Petal.Length) # 특정 열 입력 시, 행 개수 return
# 열 이름 (변수명)
ls(iris)
# 데이터 앞부분이나 뒷부분
# n은 데이터 앞/뒤의 관측치 몇 개를 불러올 것인지 지정 (기본값 6)
head(iris, n = 6)
tail(iris, n = 6)

 

# 기술통계량 확인하기

: 데이터를 요약한 대푯값. 특징적인 의미를 가진 수치로 요약하여 확인한다.

mean(열) 평균 이상치 영향 높음
median(열) 중앙값 이상치 영향 낮음
min(열) / max(열) 최소 / 최대 이상치 판단
range(열) 범위 최소 ~ 최대
quantile(열, probs = 0 ~ 1) 사분위수 추가 설명
var(열) 분산 산포도
sd(열) 표준편차 산포도 ( 다양한 계산에 활용 )
kurtosi(열) 첨도 정규분포 대비 중심에 몰려있는 정도
첨도 > 0 : 뾰족
첨도 < 0 : 완만
skew(열) 왜도 비대칭 정도
왜도 > 0 : 오른쪽 꼬리
왜도 < 0 : 왼쪽 꼬리
freq(열, plot = T) 빈도분석 몇 번 등장하고 비율은 어느 정도인지
plot = T : 기본값. 그래프 출력 제공

 

p.s) 데이터를 일직선상에 늘어놓는다면, 데이터 뒤에 n% 개의 데이터가 존재하는 경우 

       해당 데이터를 nth 퍼센타일이라고 한다. (n번째 퍼센타일) (퍼센타일 = 백분위수)

       그리고, 25th, 50th, 75th, 100th 퍼센타일를 사분위수 (4등분시킨 수) 라고 한다.

       영문 표기 : quantile(열, prob = 0 ~ 1) (prob*100 th 퍼센타일)

 

 

'Coding & Data Analysis > R' 카테고리의 다른 글

[R] 5-1. dplyr 패키지의 데이터 가공 함수  (0) 2024.08.15
[R] 4-3. 데이터 시각화  (0) 2024.08.14
[R] 4-1. 데이터 불러오기  (0) 2024.08.13
[R] 3-3. 조건문과 반복문  (0) 2024.08.12
[R] 3-1&2. 변수와 함수, 패키지  (0) 2024.08.12
'Coding & Data Analysis/R' 카테고리의 다른 글
  • [R] 5-1. dplyr 패키지의 데이터 가공 함수
  • [R] 4-3. 데이터 시각화
  • [R] 4-1. 데이터 불러오기
  • [R] 3-3. 조건문과 반복문
흑석동사는시골쥐
흑석동사는시골쥐
문과 경영학도 숫자 배우기 프로젝트
  • 흑석동사는시골쥐
    NaN
    흑석동사는시골쥐
  • 전체
    오늘
    어제
  • 링크

    • 독서 일지
    • 올리고 싶은 거 올려요
    • 분류 전체보기 (75)
      • Coding & Data Analysis (52)
        • Python (23)
        • R (21)
        • Excel & Data (2)
        • Git & Github (4)
        • Certificate (2)
      • Project (15)
        • 일자리 스크래핑 서비스 (8)
        • 최적의 인스타 피드 (2)
        • 주식 & 비트코인 분석 (5)
      • Economics (1)
        • 경제기사 스크랩 (1)
      • Records & Thoughts (6)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 공지사항

  • 인기 글

  • 태그

    데이터수집
    시각화
    파이썬
    Python
    주가분석
    adsp공부법
    비전공자
    엔비디아
    코랩
    다항회귀
    머신러닝
    웹스크래퍼
    r
    개발
    Colab
    AI반도체
    기초
    matplotlib
    데이터분석
    프로그래밍
    주식
    데이터
    ADSP
    자격증
    FLASK
    심장병 데이터
    동아리
    지도
    git
    전처리
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
흑석동사는시골쥐
[R] 4-2. 데이터 관측하기
상단으로

티스토리툴바