데이터 분석/ADP 자격증 공부

[ADP 필기] (통계) 교차분석, 카이제곱 검정

나르시스트 2026. 4. 4. 13:00

*카이제곱 검정(교차분석)

– 각 범주에 따른 결과 변수의 분포 혹은 범주형 변수(명목/서열) 간에 상관이 있는지 검정: 적합도, 독립성, 동질성
– 즉, 한 변수의 분포가 다른 변수의 분포와 관련이 있는지를 판단
– 종속변수의 관찰빈도
– 각 범주의 기대 빈도는 5 이상 → 기대빈도가 5 미만인 셀 비율이 20% 넘으면 X
1. 적합성 검정 – H0: 비율이 50%, 50%이다

2. 독립성 검정 – H0: A변수와 B변수는 독립이다
3. 동질성 검정 – H0: class의 분포는 survived에 관계없이 동일하다

– 실험 데이터 형태

→ 각 셀의 관찰빈도와 기대빈도 간의 차이를 검정

  • 기대 빈도 계산: 각 셀에 대한 기대 빈도* 계산
    *기대 빈도는 해당 행의 합계와 해당 열의 합계를 곱한 다음, 전체 합계로 나누어 계산
    예를 들어, ‘읽기’와 ‘남학생’ 셀의 기대 빈도는 (50 * 100) / 180 = 27.78입니다.
  • 카이제곱 통계량 계산: 각 셀에 대해 (관측 빈도 – 기대 빈도)2 / 기대 빈도를 계산하고, 모든 셀에 대해 이 값을 합산
  • 유의 수준과 자유도 결정: 일반적으로 유의 수준은 0.05, 자유도는 (행의 수 – 1) * (열의 수 – 1)로 계산
    상기 예제에서 자유도는 (3-1) * (2-1) = 2
  • 결과 해석: 계산된 카이제곱 통계량을 카이제곱 분포 표와 비교하여 p-value 계산
    p-value가 유의 수준보다 낮으면, 두 변수 사이에 통계적으로 유의미한 관계가 있다고 결론지을 수 있음