오답노트
[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 2 본문
[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1
이전 포스트에서 상관계수에 따라 두 수치 데이터가 얼마나 관계가 강한지 그리고 그에 따른 한계도 알아보았다.
귀무가설과 대립가설
- 대립가설 : 새로운 주장이나 가능성이나 가설을 의미한다.
- 귀무가설 : 이미 존재하는 주장이나 사실을 의미한다.
상관계수를 100% 신뢰할 수 없지만 이 가설을 설득시키기 위해서는 기존의 주장에 예외가 있음을 증명해야 한다.
가설 검정
대립가설을 채택하기 위해서는 대립가설이 얼마나 설득력이 있는지 검정해야 한다.
이때 양쪽 검정이라는 방법이 사용되는데 정규분포에서 양 끝에 도달할수록 대립가설이 채택될 가능성이 높아진다.
정규분포의 총면적은 1이다.
보통 대립가설 채택 기준은 정규분포 양 끝 면적의 합이 0.05 (각각 0.025)에 대립가설이 위치한다면 채택한다.
양 끝 면적의 합은 기준에 따라 더 줄어들 수 있다.
p 값과 대립가설 채택
가설 검정에서 대립가설이 양 끝 면적의 합이 0.05에 위치할 때 채택한다고 했다.
그렇다면 대립가설의 위치는 어떻게 알 수 있을까?
바로 p 값이다.
p 값이 0.025보다 낮으면 상관관계를 신뢰할 수 있다고 볼 수 있다.
'Python > 데이터 분석' 카테고리의 다른 글
[데이터 분석] 이변량 분석 - 범주 데이터와 범주 데이터 (0) | 2022.08.12 |
---|---|
[데이터 분석] 이변량 분석 - 범주 데이터와 수치 데이터 (0) | 2022.08.12 |
[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1 (0) | 2022.08.11 |
[데이터 분석] 범주형 데이터 분석 (0) | 2022.08.11 |
[데이터 분석] 수치형 데이터 분석 (0) | 2022.08.10 |