오답노트
[Pandas] 가변수 (Dummy Variable) 본문
가변수(Dummy Variable)
범주형 데이터의 unique를 각 열로 나누는 것을 의미한다.
get_dummies
pd.get_dummies(범주형 데이터변수,prefix,drop_first)
pd.get_dummies(데이터프레임, columns=[범주형 데이터 변수], drop_first)
인자로 범주형 데이터 변수를 때,
prefix 옵션은 생성될 가변수의 접두어를 설정할 수 있다.
drop_first는 가변수를 생성할 때, 원본 범주혀 데이터를 삭제할 여부를 결정한다.
True는 삭제, False는 삭제하지 않는다.
인자로 데이터프레임을 받을 때,
columns 옵션에 데이터프레임 내에 범주형 데이터를 입력한다.
drop_first는 위 설명과 같다.
df['Serise1'].unique() # array([1, 2, 3], dtype=int64)
df_dumm1 = pd.get_dummies(df['Serise1'],prefix='d',drop_first=True)
df_dumm1.head(5)
d는 prefix로 설정한 접두어다.
열을 보면 d_1은 보이지 않는데 d_2,d_3가 모두 0으로 d_1을 표현할 수 있기 때문이다.
아래 코드는 위와 같은 결과이다.
df_dumm2 = pd.get_dummies(df,columns=['Serise1'],prefix='d',drop_first=True)
df_dumm2.head(5)
'Python > Pandas' 카테고리의 다른 글
[Pandas] pivot (0) | 2022.08.11 |
---|---|
[Pandas] NaN 처리 (0) | 2022.08.09 |
[Pandas] 시간 데이터 (0) | 2022.08.08 |
[Pandas] Crosstab (교차표) (0) | 2022.08.08 |
[Pandas] Rolling 과 Shift (0) | 2022.08.08 |