오답노트

[Pandas] 가변수 (Dummy Variable) 본문

Python/Pandas

[Pandas] 가변수 (Dummy Variable)

권멋져 2022. 8. 9. 19:18

가변수(Dummy Variable)

범주형 데이터의 unique를 각 열로 나누는 것을 의미한다.

 

get_dummies

pd.get_dummies(범주형 데이터변수,prefix,drop_first)
pd.get_dummies(데이터프레임, columns=[범주형 데이터 변수], drop_first)

인자로 범주형 데이터 변수를 때,

prefix 옵션은 생성될 가변수의 접두어를 설정할 수 있다.

drop_first는 가변수를 생성할 때, 원본 범주혀 데이터를 삭제할 여부를 결정한다.

True는 삭제, False는 삭제하지 않는다.

 

인자로 데이터프레임을 받을 때,

columns 옵션에 데이터프레임 내에 범주형 데이터를 입력한다.

drop_first는 위 설명과 같다.

 

df['Serise1'].unique() # array([1, 2, 3], dtype=int64)

df_dumm1 = pd.get_dummies(df['Serise1'],prefix='d',drop_first=True)
df_dumm1.head(5)

2.1 가변수 데이터프레임

d는 prefix로 설정한 접두어다.

열을 보면 d_1은 보이지 않는데 d_2,d_3가 모두 0으로 d_1을 표현할 수 있기 때문이다.

 

아래 코드는 위와 같은 결과이다.

df_dumm2 = pd.get_dummies(df,columns=['Serise1'],prefix='d',drop_first=True)
df_dumm2.head(5)

'Python > Pandas' 카테고리의 다른 글

[Pandas] pivot  (0) 2022.08.11
[Pandas] NaN 처리  (0) 2022.08.09
[Pandas] 시간 데이터  (0) 2022.08.08
[Pandas] Crosstab (교차표)  (0) 2022.08.08
[Pandas] Rolling 과 Shift  (0) 2022.08.08