Shapiro-Wilk 검정:
Shapiro-Wilk normality test
data: salary$income
W = 0.83882, p-value < 2.2e-16
👉 W값 (0.83882)
- 데이터가 정규분포와 얼마나 가까운지 나타냄.
- W가 1에 가까울수록 정규분포에 가깝고, 낮을수록 정규성에서 벗어남.
👉 p-값 (p < 2.2e-16)
- 귀무가설(데이터가 정규분포를 따른다)을 기각할지 판단하는 기준.
- p-value < 0.05 이므로 귀무가설을 기각한다. 즉, 데이터는 정규분포를 따르지 않음.
One Sample t-test
One Sample t-test
data: salary$income
t = -40.005, df = 4633, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 350
95 percent confidence interval:
236.3077 246.9303
sample estimates:
mean of x
241.619
- 검정 통계량 (t = -40.005)
- 데이터의 평균과 비교하려는 값(350)의 차이를 나타냄.
- 값이 0에서 멀수록 두 값이 통계적으로 유의미하게 다르다는 신호임.
- 자유도 (df = 4633)
- 표본 크기에서 1을 뺀 값. (여기서는 4634개 데이터 사용)
- p-값 (< 2.2e-16)
- 귀무가설(평균이 350과 같다)을 기각할지 판단하는 기준.
- p-value < 0.05 이므로 귀무가설을 기각 → 평균이 350과 다름.
- 대립가설
- "실제 평균이 350이 아니다"
- 95% 신뢰구간 (236.3077, 246.9303)
- 실제 평균이 95% 확률로 이 구간에 포함됨.
- 구간에 350이 포함되지 않으므로 평균이 350과 다르다고 판단.
- 샘플 평균 (241.619)
- 데이터의 실제 평균값.
- 350과 큰 차이가 있어 대립가설을 지지함.
- 데이터의 평균은 241.619로, 350과 통계적으로 유의미하게 다르다고 결론 내릴 수 있음.
Welch Two Sample t-test
Welch Two Sample t-test
data: income by sex
t = 31.019, df = 4207.7, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
140.6068 159.5802
sample estimates:
mean in group 1 mean in group 2
312.2932 162.1997
- 검정 통계량 (t = 31.019)
- 두 그룹의 평균 차이를 나타내는 값.
- 값이 0에서 멀수록 두 그룹의 평균이 통계적으로 유의미하게 다르다는 신호임.
- 자유도 (df = 4207.7)
- Welch t-test에서 계산된 수정 자유도. 두 그룹의 표본 크기와 분산에 따라 조정됨.
- p-값 (< 2.2e-16)
- 귀무가설(두 그룹의 평균 차이가 0이다)을 기각할지 판단하는 기준.
- p-value < 0.05 이므로 귀무가설을 기각 → 두 그룹의 평균이 통계적으로 유의미하게 다름.
- 대립가설
- "두 그룹의 평균 차이가 0이 아니다"
- 95% 신뢰구간 (140.6068, 159.5802)
- 두 그룹 평균 차이에 대한 신뢰구간.
- 95% 확률로 평균 차이가 이 구간 안에 포함됨.
- 구간에 0이 포함되지 않으므로 평균 차이가 유의미함.
- 그룹별 평균
- Group 1: 평균 312.2932
- Group 2: 평균 162.1997
- Group 1이 Group 2보다 평균적으로 더 높은 값을 가짐.
- 결론
- 두 그룹의 평균 차이는 통계적으로 유의미하며, 평균 차이는 약 150 정도(신뢰구간 140.6068~159.5802)로 추정.
- 따라서 성별에 따른 소득 차이가 있다고 결론.
'Coding & Data Analysis > R' 카테고리의 다른 글
[R] R으로 보고서 & 인터랙티브 웹까지 만들수 있다. (feat. Shiny) (1) | 2024.08.29 |
---|---|
[R] 지역별 미세먼지 농도 비교 & 가설 검정 (6) | 2024.08.28 |
[R] 코로나19 선별진료소 빈도분석 & 지도 시각화 (0) | 2024.08.27 |
[R] 시각화를 위한 데이터 구조 변경 및 추가 개념 (0) | 2024.08.25 |
[R] Excel 전처리 & 빈도분석 시각화 개념들 (0) | 2024.08.25 |