오답노트
[데이터 분석] 수치형 데이터 분석 본문
수치형 데이터
숫자로써 의미를 가지는 데이터를 수치형 데이터라고 한다.
예를 들어 가격 데이터가 있다. 수치형 데이터인지 모호할 때는 사칙연산을 해보면 알수있다.
1000원 과 2000원을 비교했을때 1000원 의 2배는 2000원이다.
반대로 범주형 데이터는 사칙연산을 하면 그 의미가 맞지 않는다.
예를 들어 월 데이터가 있으면, 1월의 2배가 2월이 되지 않는다.
수치화
대표값
- 평균
- 산술평균 : (a1 + a2 + a3 + ... + an) /n
- 조화평균 : 2*a*b / (a+b)
- 중앙값 : 자료의 순서상 가운데 위치하는 값 자료의 개수가 짝수일 경우 두 중간값의 중간이 중간값이 된다.
- 최빈값 : 자료에서 나타나는 빈도수
- 4분위수 : 데이터에서 최소값, 1/4, 2/4, 3/4, 최대값에 있는 값을 4분위수라고 한다.
기초통계량
pandas 라이브러리에서 사용되는 describe 함수는 시리즈 또는 데이터 프레임의 기초통계량을 출력하는 함수다.
출력 결과를 살펴보자
데이터의 총 개수, 평균, 빈도, 4분위수 모두 존재한다.
데이터를 시각화하여 기초통계량을 통해 데이터를 쉽게 이해하고, 분석 가능해진다.
'Python > 데이터 분석' 카테고리의 다른 글
[데이터 분석] 이변량 분석 - 범주 데이터와 수치 데이터 (0) | 2022.08.12 |
---|---|
[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 2 (0) | 2022.08.11 |
[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1 (0) | 2022.08.11 |
[데이터 분석] 범주형 데이터 분석 (0) | 2022.08.11 |
[sklearn] MinMaxScaler (0) | 2022.08.09 |