오답노트

[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 2 본문

Python/데이터 분석

[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 2

권멋져 2022. 8. 11. 21:55

[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1

 

[데이터 분석] 이변량 분석 - 수치 데이터 와 수치 데이터1

이변량 분석 이변량 분석은 두 변수에 대해서 상관관계가 어떤지 분석하는 것이다. 변수(x) -> 타겟(y) 을 가정했을 때 두 변수간 상관관계를 분석한다. 수치형 데이터와 수치형 데이터 분석 산점

dhjkl123.tistory.com

 

이전 포스트에서 상관계수에 따라 두 수치 데이터가 얼마나 관계가 강한지 그리고 그에 따른 한계도 알아보았다.

 

귀무가설과 대립가설

  • 대립가설 : 새로운 주장이나 가능성이나 가설을 의미한다.
  • 귀무가설 : 이미 존재하는 주장이나 사실을 의미한다.

상관계수를 100% 신뢰할 수 없지만 이 가설을 설득시키기 위해서는 기존의 주장에 예외가 있음을 증명해야 한다.

 

가설 검정

대립가설을 채택하기 위해서는 대립가설이 얼마나 설득력이 있는지 검정해야 한다.

 

이때 양쪽 검정이라는 방법이 사용되는데 정규분포에서 양 끝에 도달할수록 대립가설이 채택될 가능성이 높아진다.

 

2.1 정규분포

정규분포의 총면적은 1이다.

보통 대립가설 채택 기준은 정규분포 양 끝 면적의 합이 0.05 (각각 0.025)에 대립가설이 위치한다면 채택한다.

양 끝 면적의 합은 기준에 따라 더 줄어들 수 있다.

 

p 값과 대립가설 채택

가설 검정에서 대립가설이 양 끝 면적의 합이 0.05에 위치할 때 채택한다고 했다.

그렇다면 대립가설의 위치는 어떻게 알 수 있을까?

 

바로 p 값이다.

 

p 값이 0.025보다 낮으면 상관관계를 신뢰할 수 있다고 볼 수 있다.