오답노트

[데이터 분석] 수치형 데이터 분석 본문

Python/데이터 분석

[데이터 분석] 수치형 데이터 분석

권멋져 2022. 8. 10. 21:30

수치형 데이터

숫자로써 의미를 가지는 데이터를 수치형 데이터라고 한다.

예를 들어 가격 데이터가 있다. 수치형 데이터인지 모호할 때는 사칙연산을 해보면 알수있다.

1000원 과 2000원을 비교했을때 1000원 의 2배는 2000원이다.

 

반대로 범주형 데이터는 사칙연산을 하면 그 의미가 맞지 않는다.

예를 들어 월 데이터가 있으면, 1월의 2배가 2월이 되지 않는다.

 

수치화

대표값

  • 평균
    • 산술평균 : (a1 + a2 + a3 + ... + an) /n
    • 조화평균 : 2*a*b / (a+b)
  • 중앙값 : 자료의 순서상 가운데 위치하는 값 자료의 개수가 짝수일 경우 두 중간값의 중간이 중간값이 된다.
  • 최빈값 : 자료에서 나타나는 빈도수
  • 4분위수 : 데이터에서 최소값, 1/4, 2/4, 3/4, 최대값에 있는 값을 4분위수라고 한다.

기초통계량

pandas 라이브러리에서 사용되는 describe 함수는 시리즈 또는 데이터 프레임의 기초통계량을 출력하는 함수다.

출력 결과를 살펴보자

 

1.2.1 기초통계량

데이터의 총 개수, 평균, 빈도, 4분위수 모두 존재한다.

 

데이터를 시각화하여 기초통계량을 통해 데이터를 쉽게 이해하고, 분석 가능해진다.