오답노트

[matplotlib] 수치형 데이터 시각화 본문

Python/Matplotlib

[matplotlib] 수치형 데이터 시각화

권멋져 2022. 8. 10. 22:07

[데이터 분석] 수치형 데이터 분석

 

[데이터 분석] 수치형 데이터 분석

수치형 데이터 숫자로써 의미를 가지는 데이터를 수치형 데이터라고 한다. 예를 들어 가격 데이터가 있다. 수치형 데이터인지 모호할 때는 사칙연산을 해보면 알수있다. 1000원 과 2000원을 비교

dhjkl123.tistory.com

 

히스토그램(hist)

plt.hist(시리즈,bins,edgecolor)

hist 함수는 데이터에 대한 빈도수를 바 그래프 형태로 나타낸다.

 

시리즈를 인자로 받아 해당 시리즈의 빈도수를 바 그래프 형태로 볼 수 있다.

bins는 분해능을 결정할 수 있다. 입력한 숫자가 높을 수록 높은 분해능을 보인다.

edgecolor는 바의 테두리 색을 결정할 수 있다.

 

plt.hist(df['Fare'],bins=32,edgecolor='gray')
plt.show()

1.1 히스토그램

밀도함수 그래프(kdeplot)

히스토그램은 bins 옵션의 값에 따라 보이는 데이터의 오차가 있을 수 있다.

밀도함수 그래프는 밀도를 추정하여 이러한 단점을 보완했다.

밀도함수 그래프의 면적은 1이다.

 

import  seaborn as sns
sns.kdeplot(시리즈)

 

seaborn 패키지를 불러와 kdeplot함수를 호출하여 밀도함수 그래프를 그릴수있다.

plt.show 함수를 통해 출력한다.

 

import seaborn as sns

sns.kdeplot(df['Fare'])
plt.show()

2.1 밀도함수 그래프

사각화(boxplot)

4분위수를 시각화한 차트이다.

plt.boxplot(시리즈, vert)

vert 옵션을 False로 입력하면 가로로 출력, True는 세로로 출력한다. 기본값을 True이다.

 

자세한 설명은 그림을 참조하자.

 

lst = [10,19,20,23,46,21,25,26,25,28,31,37,24,28,34,38,33,32,29,27,24]
box = plt.boxplot(lst, vert = False)
plt.show()

 

3.1 boxplot 설명

whiskers

사각형 옆으로 나온 직선을 whiskers라고 하는데 boxplot 객체에 whiskers을 get_xdata 또는 get_ydata 조회하면 값을 알 수 있다.

 

0번 인덱스는 작은 쪽, 1번 인덱스는 큰 쪽 방향이다.

 

lst = [10,19,20,23,46,21,25,26,25,28,31,37,24,28,34,38,33,32,29,27,24]
box = plt.boxplot(lst, vert = False)
plt.show()

print(box['whiskers'][0].get_xdata()) # vert = True 일 땐 get_ydata
print(box['whiskers'][1].get_xdata()) # vert = True 일 땐 get_ydata

3.1.1 whiskers 값