목록분류 전체보기 (408)
오답노트
map 범주형 값을 다른 값으로 변경할 수 있다. 시리즈에서 사용할 수 있는 메소드로 인자로는 딕셔너리를 받는다. 딕셔너리에는 {"현재 시리즈의 값" : "변경할 값"} 과 같이 입력한다. dataframe['Status'] = dataframe['Status'].map({1: "Bad", 2:"Nomal",3:"Good"}) cut 수치형 요소를 구간을 지정하여 분할할 수 있다. cut 함수는 인자로 시리즈를 받고, 해당 시리즈를 분할한 값으로 입력한다. labels 옵션은 리스트를 입력할 수 있고, 구간을 지정하여 분할했을 때, 분할한 값을 지정한다. bins 옵션은 구간을 리스트로 입력할 수 있다. labels에 입력한 리스트의 크기보다 1 더 커야한다. bins = [0,30,60,100] dat..
열 이름 변경 rename (일부 열 이름 변경) columns 옵션에 딕셔너리 형태로 {"현재 열 이름" : "새로운 열 이름"}을 입력하면 된다. 하지만 inplace 옵션이 True일 경우에 현재 데이터프레임에 적용된다. 기본값은 False이므로 현재 데이터프레임에 적용하려면 inplace 옵션을 True로 해야한다. df_rename.rename(columns = {"Serise1": "Col1", "Serise2": "Col2",}, inplace = True) columns (전체 열 이름 변경) 데이터프레임의 columns 변수에 리스트로 값을 넣으면 해당 값 순서대로 열 이름이 변경된다. 단, 리스트의 크기는 데이터프레임의 열의 개수와 일치해야한다. df_rename_all.columns ..
조건 확인 시리즈를 조회하는 문법에 바로 조건절을 사용하면 된다. 결과는 Boolean으로 출력된다. 부정 기호는 ~ 이다. 부정하고 싶은 조건문에는 괄호를 쳐야만한다. dataframe['Status'] > 2 ''''''' 0 False 1 False 2 True 3 False 4 True 5 False 6 False 7 False 8 False 9 True 10 False 11 False ''''''' ~ (dataframe['Status'] > 2) ''''''' 0 True 1 True 2 False 3 True 4 False 5 True 6 True 7 True 8 True 9 False 10 True 11 True ''''''' 여러 조건을 조회 할때는 &(and) 와 |(or) 기호를 사용..
열 조회하기 데이터프레임 변수에 ['컬럼명'] 을 통해 열을 조화할 수 있다. 다른 방법으로는 데이터프레임 변수에 .컬럼영 을 통해서도 조회할 수 있다. print(data_frame['Serise1']) print(data_frame.Serise1) ''''''' 0 12 1 56 2 89 3 57 4 25 5 56 6 85 7 69 8 34 9 69 10 47 11 60 Name: Serise1, dtype: int64 ''''''' 통계 메소드 sum 열의 합계 조회 data_frame['Serise1'].sum()# 659 max 열의 최대값 조회 data_frame['Serise1'].max()# 89 min 열의 최소값 조회 data_frame['Serise1'].min()# 12 mean 열..
unique 데이터 프레임에서 시리즈에 대해 고유값을 출력하는 함수다 data_frame['Status'].unique() # array([1, 2, 3], dtype=int64) value_counts 고유 값과 그 개수를 확인할 수 있다. data_frame['Status'].value_counts() ''' 1 5 2 4 3 3 Name: Status, dtype: int64 '''
sort_values 사용자가 선택한 열을 기준으로 정렬한다. 옵션으로 by,ascending 이 있다. by는 열을 선택하는 옵션이다. by에 열의 이름을 넣는다. ascending 옵션은 기본값이 True로 오름차순 정렬이 기본이다. ascending 옵션에 False 값을 입력하면 내림차순 정렬이 된다. data_frame.sort_values(by = 'Serise1') data_frame.sort_values(by = 'Serise1',ascending = False)
데이터 프레임의 크기 (shape) 튜플의 형태로 데이터 프레임의 크기를 반환한다. 순서는 행, 열이다. data_frame.shape# (12, 4) 데이터 프레임의 열 확인 (columns) data_frame의 columns 변수를 통해 열의 이름들을 확인할 수 있다. 이 때 반환은 Pandas의 Index 자료형으로 반환되고 columns.values 변수를 통해 열의 이름을 확인하면 array로 반환된다. print(data_frame.columns) # Index(['Label', 'Serise1', 'Serise2', 'Serise3'], dtype='object') print(data_frame.columns.values) # array(['Label', 'Serise1', 'Serise2..
read_csv csv 파일은 쉼표로 구분된 파일 형식이다. Pandas에서는 csv파일을 읽어올 수 있는 함수를 제공한다. 함수의 인자로는 csv의 경로만 넣으면 된다. import pandas as pd data_frame = pd.read_csv('C:\\Users\\User\\Desktop\\개인공부\\Pandas\\my_data.csv') to_csv 데이터 프레임을 csv로 만드는 함수이다. 인자로 경로를 받아서 csv파일을 생성한다. data_frame.to_csv('my_csv.csv') head head는 데이터 프레임을 상위에서 부터 조회한다. 인자로는 상위에서부터 몇개까지 조회 할지 정수로 받고, 인자를 넣지 않을 경우 5개가 기본값이다. data_frame.head() data_fr..
Pandas 데이터 처리와 분석을 위한 라이브러리이다. 행과 열로 이루어진 데이터를 만들어 다룰 수 있다. import pandas as pd 파이썬에서 Pandas를 불러오는 방법이다. 보통 pd로 별칭을 지어준다. 데이터 프레임 테이블 형태의 데이터를 데이터 프레임이라고 한다. 시리즈 시리즈는 데이터 프레임의 하위 단위로 한 열을 시리즈라고 한다.
기본적으로 git과 VS Code가 설치되어있다는 가정하에 시작한다. Git 리누스 토발츠에 의해서 만들어진 버전관리 시스템이다. 버전은 디버깅, 백업, 협업과 같은 목적에 사용된다. VS Code에서 사용 준비하기 VS Code를 실행 후 상단 메뉴중 터미널에서 새 터미널 클릭 아래 터미널 창이 생성되고 터미널 창 우측상단에 + 옆 드롭박스(V) 버튼 클릭 후 Git Bash 선택 커맨드 Ctrl + , 를 통해 설정을 열어 상단 에디트 박스에 exclude 검색 Files: Exclude 항목에서 .git을 선택 후 패턴 추가 클릭 바탕화면에서 git으로 관리할 폴더 생성 위에서 생성한 파일을 VS Code에 드래그 & 드롭 [그림 1-2.1] 과 같이 터미널을 열어 아래 명령어를 통해 git을 생성..