오답노트

[데이터 분석] 범주형 데이터 분석 본문

Python/데이터 분석

[데이터 분석] 범주형 데이터 분석

권멋져 2022. 8. 11. 18:07

범주형 데이터

수치형 데이터와 반대로 수학적 계산이 되지 않는 데이터들을 의미한다.

계절이나 등급, 월 같은 경우가 범주형 데이터에 해당한다.

 

범주형 데이터 기초통계량

pandas 함수로 쉽게 기초 통계량을 알 수 있다.

 

범주형데이터시리즈.value_counts()/데이터프레임.shape[0]
범주형 데이터/데이터프레임 행의 수

위와 같은 방법으로 기초통계량을 구할 수 있다.

범주형 데이터의 기초통계량은 퍼센트로 나타내진다.

 

주의할 점으로 범주형 데이터에 NaN이 있으면 계산이 제대로 되지 않는다.

꼭 결측치를 처리하고 기초통계량을 구하도록 하자.

 

print(titanic['Survived'].value_counts()/titanic.shape[0])

'''

0    0.616162
1    0.383838

'''