목록Python/데이터 분석 (9)
오답노트
수치 → 수치 시각화 [matplotlib] scatter (산점도) plt.scatter(dataframe['feature'], dataframe['target']) # plt.scatter('feature', 'target', data = dataframe) plt.show() 수치화 [데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1 import scipy.stats as spst spst.pearsonr(dataframe['feature'], dataframe['target']) 수치 → 범주 [데이터 분석] 이변량 분석 - 수치 데이터와 범주 데이터 시각화 kdeplot (밀도함수 그래프) sns.kdeplot(x='feature', data = dataframe, hue ='targ..

시각화 시각화는 히스토그램과 밀도함수 그래프 각각 할 수 있다. 이 때는 범주별로 겹쳐서 출력 후 비교한다. 밀도함수 그래프 sns.kdeplot(x='Age', data = titanic, hue ='Survived', common_norm = False) plt.show() hue 옵션으로 범주를 설정해줘야 한다. 그리고 common_norm 옵션을 False로 해야 정확한 결과를 얻을 수 있다. common_norm이 True면 두 면적의 합이 1이 되게 한다. False를 입력하면 각 면적이 1이 되도록 출력한다. 표 해석은 다음과 같이 할 수 있다. 0세 부터 20세까지는 산 사람이 많고 약 30세부터 40세까지는 죽은 사람이 많다. 40세부터 60세까지는 산 사람이 조금 많고 60세부터 80세..

범주 데이터와 범주 데이터 범주 데이터와 범주 데이터를 비교하는 방법은 교차표를 만들어 각 범주마다 비율을 비교해보면 된다. 만약 비율의 차가 거의 없으면 상관관계가 적고, 차가 클수록 상관관계가 크다고 할 수 있다. 교차표 만들기 pandas의 crosstab함수를 사용해서 쉽게 만들 수 있다. 하지만 이때 normalize 옵션을 'index'로 지정해야한다. normalize 옵션이 'index'이면 행의 합이 1이다. pd.crosstab(titanic['Survived'], titanic['Embarked'], normalize = 'index') 시각화 boxplot 과 mosaic으로 표현할 수 있다. 여기서는 mosaic으로 표현하는 법을 알아보겠다. mosaic은 두 범주 데이터의 비율 ..

범주 데이터와 수치 데이터 비교 범주 데이터와 수치 데이터를 비교하는 방법은 평균을 비교하는 것이다. 하지만 평균은 실제와의 오차가 큰 경우가 존재하기에 무조건 신뢰할 수 있는 데이터는 아니다. 즉, 실제 값과 평균 값의 오차가 작을수록 신뢰할만한 데이터라고 할 수 있다. 표준 편차 한 집단에서 평균을 구할 때, 집단의 값들이 평균으로부터 얼마나 벗어나 있는지를 나타내는 값이다. 표본 평균 표본은 모집단에서 임의의 수 만큼 값을 선정하는 것이다. (Sampling) 표본 평균은 모집단에서부터 임의로 값들을 선정하여 평균을 계산하는 것을 의미한다. 이것은 모집단의 추정치가 된다. 하지만 처음 평균에 대한 신뢰도를 의심할 때와 마찬가지로 표본 평균과 모집단의 평균이 일치하기는 힘들다. 표준 오차 모집단의 평..

[데이터 분석] 이변량 분석 - 수치 데이터와 수치 데이터 1 [데이터 분석] 이변량 분석 - 수치 데이터 와 수치 데이터1 이변량 분석 이변량 분석은 두 변수에 대해서 상관관계가 어떤지 분석하는 것이다. 변수(x) -> 타겟(y) 을 가정했을 때 두 변수간 상관관계를 분석한다. 수치형 데이터와 수치형 데이터 분석 산점 dhjkl123.tistory.com 이전 포스트에서 상관계수에 따라 두 수치 데이터가 얼마나 관계가 강한지 그리고 그에 따른 한계도 알아보았다. 귀무가설과 대립가설 대립가설 : 새로운 주장이나 가능성이나 가설을 의미한다. 귀무가설 : 이미 존재하는 주장이나 사실을 의미한다. 상관계수를 100% 신뢰할 수 없지만 이 가설을 설득시키기 위해서는 기존의 주장에 예외가 있음을 증명해야 한다. ..

이변량 분석 이변량 분석은 두 변수에 대해서 상관관계가 어떤지 분석하는 것이다. 변수(x) -> 타겟(y) 을 가정했을 때 두 변수간 상관관계를 분석한다. 수치형 데이터와 수치형 데이터 분석 산점도 패턴 [matplotlib] scatter (산점도) [matplotlib] scatter (산점도) scatter 데이터를 표에 점을 찍어서 나타내는 그래프다. plt.scatter(시리즈, 시리즈]) plt.scatter('시리즈명', '시리즈명', data = 데이터프레임) plt.scatter(air['Temp'], air['Ozone']) # plt.scatter('Temp'.. dhjkl123.tistory.com 산점도에 대한 대략적인 설명은 위 링크에서 확인할 수 있다. 산점도는 명확한 패턴이 ..
범주형 데이터 수치형 데이터와 반대로 수학적 계산이 되지 않는 데이터들을 의미한다. 계절이나 등급, 월 같은 경우가 범주형 데이터에 해당한다. 범주형 데이터 기초통계량 pandas 함수로 쉽게 기초 통계량을 알 수 있다. 범주형데이터시리즈.value_counts()/데이터프레임.shape[0] 범주형 데이터/데이터프레임 행의 수 위와 같은 방법으로 기초통계량을 구할 수 있다. 범주형 데이터의 기초통계량은 퍼센트로 나타내진다. 주의할 점으로 범주형 데이터에 NaN이 있으면 계산이 제대로 되지 않는다. 꼭 결측치를 처리하고 기초통계량을 구하도록 하자. print(titanic['Survived'].value_counts()/titanic.shape[0]) ''' 0 0.616162 1 0.383838 '''

수치형 데이터 숫자로써 의미를 가지는 데이터를 수치형 데이터라고 한다. 예를 들어 가격 데이터가 있다. 수치형 데이터인지 모호할 때는 사칙연산을 해보면 알수있다. 1000원 과 2000원을 비교했을때 1000원 의 2배는 2000원이다. 반대로 범주형 데이터는 사칙연산을 하면 그 의미가 맞지 않는다. 예를 들어 월 데이터가 있으면, 1월의 2배가 2월이 되지 않는다. 수치화 대표값 평균 산술평균 : (a1 + a2 + a3 + ... + an) /n 조화평균 : 2*a*b / (a+b) 중앙값 : 자료의 순서상 가운데 위치하는 값 자료의 개수가 짝수일 경우 두 중간값의 중간이 중간값이 된다. 최빈값 : 자료에서 나타나는 빈도수 4분위수 : 데이터에서 최소값, 1/4, 2/4, 3/4, 최대값에 있는 값을..

MinMaxScaler MinMaxScaler는 열에서 최소값을 0, 최대값을 1로 봤을 때, 그 비율로 Scale을 조정할 수 있도록 하는 객체다. from sklearn.preprocessing import MinMaxScaler col = list(df.iloc[:,-2:]) scale = MinMaxScaler() df_scale = scale.fit_transform(df.iloc[:,-2:]) df_scale = pd.DataFrame(df_scale,columns=col) result = pd.concat([df.iloc[:,:1],df_scale],axis=1) 그림 1.1 에서 Serise1을 보면 3번 인덱스의 값이 가장 크고, 0번 인덱스 값이 가장 작다. 그림 2.2 에서 Seris..