[R] R에서 사용되는 가설검정 함수 결과 해석

2024. 12. 12. 00:53·Coding & Data Analysis/R

Shapiro-Wilk 검정:

Shapiro-Wilk normality test

data:  salary$income
W = 0.83882, p-value < 2.2e-16

 

👉 W값 (0.83882)

  • 데이터가 정규분포와 얼마나 가까운지 나타냄.
  • W가 1에 가까울수록 정규분포에 가깝고, 낮을수록 정규성에서 벗어남.

👉 p-값 (p < 2.2e-16)

  • 귀무가설(데이터가 정규분포를 따른다)을 기각할지 판단하는 기준.
  • p-value < 0.05 이므로 귀무가설을 기각한다. 즉, 데이터는 정규분포를 따르지 않음.

 

 

One Sample t-test 

One Sample t-test

data:  salary$income
t = -40.005, df = 4633, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 350
95 percent confidence interval:
 236.3077 246.9303
sample estimates:
mean of x 
  241.619

 

  1. 검정 통계량 (t = -40.005)
    • 데이터의 평균과 비교하려는 값(350)의 차이를 나타냄.
    • 값이 0에서 멀수록 두 값이 통계적으로 유의미하게 다르다는 신호임.
  2. 자유도 (df = 4633)
    • 표본 크기에서 1을 뺀 값. (여기서는 4634개 데이터 사용)
  3. p-값 (< 2.2e-16)
    • 귀무가설(평균이 350과 같다)을 기각할지 판단하는 기준.
    • p-value < 0.05  이므로 귀무가설을 기각 → 평균이 350과 다름.
  4. 대립가설
    • "실제 평균이 350이 아니다" 
  5. 95% 신뢰구간 (236.3077, 246.9303)
    • 실제 평균이 95% 확률로 이 구간에 포함됨.
    • 구간에 350이 포함되지 않으므로 평균이 350과 다르다고 판단.
  6. 샘플 평균 (241.619)
    • 데이터의 실제 평균값.
    • 350과 큰 차이가 있어 대립가설을 지지함.
  7. 데이터의 평균은 241.619로, 350과 통계적으로 유의미하게 다르다고 결론 내릴 수 있음.

 

 

Welch Two Sample t-test

Welch Two Sample t-test

data:  income by sex
t = 31.019, df = 4207.7, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 140.6068 159.5802
sample estimates:
mean in group 1 mean in group 2 
       312.2932        162.1997

 

  1. 검정 통계량 (t = 31.019)
    • 두 그룹의 평균 차이를 나타내는 값.
    • 값이 0에서 멀수록 두 그룹의 평균이 통계적으로 유의미하게 다르다는 신호임.
  2. 자유도 (df = 4207.7)
    • Welch t-test에서 계산된 수정 자유도. 두 그룹의 표본 크기와 분산에 따라 조정됨.
  3. p-값 (< 2.2e-16)
    • 귀무가설(두 그룹의 평균 차이가 0이다)을 기각할지 판단하는 기준.
    • p-value < 0.05 이므로 귀무가설을 기각 → 두 그룹의 평균이 통계적으로 유의미하게 다름.
  4. 대립가설
    • "두 그룹의 평균 차이가 0이 아니다"
  5. 95% 신뢰구간 (140.6068, 159.5802)
    • 두 그룹 평균 차이에 대한 신뢰구간.
    • 95% 확률로 평균 차이가 이 구간 안에 포함됨.
    • 구간에 0이 포함되지 않으므로 평균 차이가 유의미함.
  6. 그룹별 평균
    • Group 1: 평균 312.2932
    • Group 2: 평균 162.1997
    • Group 1이 Group 2보다 평균적으로 더 높은 값을 가짐.
  7. 결론
    • 두 그룹의 평균 차이는 통계적으로 유의미하며, 평균 차이는 약 150 정도(신뢰구간 140.6068~159.5802)로 추정.
    • 따라서 성별에 따른 소득 차이가 있다고 결론.

 

'Coding & Data Analysis > R' 카테고리의 다른 글

[R] R으로 보고서 & 인터랙티브 웹까지 만들수 있다. (feat. Shiny)  (1) 2024.08.29
[R] 지역별 미세먼지 농도 비교 & 가설 검정  (6) 2024.08.28
[R] 코로나19 선별진료소 빈도분석 & 지도 시각화  (0) 2024.08.27
[R] 시각화를 위한 데이터 구조 변경 및 추가 개념  (0) 2024.08.25
[R] Excel 전처리 & 빈도분석 시각화 개념들  (0) 2024.08.25
'Coding & Data Analysis/R' 카테고리의 다른 글
  • [R] R으로 보고서 & 인터랙티브 웹까지 만들수 있다. (feat. Shiny)
  • [R] 지역별 미세먼지 농도 비교 & 가설 검정
  • [R] 코로나19 선별진료소 빈도분석 & 지도 시각화
  • [R] 시각화를 위한 데이터 구조 변경 및 추가 개념
흑석동사는시골쥐
흑석동사는시골쥐
문과 경영학도 숫자 배우기 프로젝트
  • 흑석동사는시골쥐
    NaN
    흑석동사는시골쥐
  • 전체
    오늘
    어제
  • 링크

    • 독서 일지
    • 올리고 싶은 거 올려요
    • 분류 전체보기 (75)
      • Coding & Data Analysis (52)
        • Python (23)
        • R (21)
        • Excel & Data (2)
        • Git & Github (4)
        • Certificate (2)
      • Project (15)
        • 일자리 스크래핑 서비스 (8)
        • 최적의 인스타 피드 (2)
        • 주식 & 비트코인 분석 (5)
      • Economics (1)
        • 경제기사 스크랩 (1)
      • Records & Thoughts (6)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 공지사항

  • 인기 글

  • 태그

    FLASK
    웹스크래퍼
    r
    데이터수집
    시각화
    엔비디아
    ADSP
    동아리
    주가분석
    matplotlib
    지도
    주식
    git
    Python
    자격증
    심장병 데이터
    데이터분석
    머신러닝
    기초
    데이터
    Colab
    비전공자
    AI반도체
    다항회귀
    프로그래밍
    전처리
    코랩
    개발
    파이썬
    adsp공부법
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.2
흑석동사는시골쥐
[R] R에서 사용되는 가설검정 함수 결과 해석
상단으로

티스토리툴바