본문 바로가기
두두 IT/파이썬

[PYTHON-Pandas 02-02] DataFrame 명령어 모음

by DoDo's 2026. 5. 4.
반응형

1. 데이터 생성 및 불러오기/저장하기

  • pd.DataFrame(data): 딕셔너리나 리스트 등을 데이터프레임으로 변환합니다.
  • pd.read_csv('경로.csv'): CSV 파일을 읽어옵니다. (옵션: index_col=0, na_values=['결측치문자'])
  • pd.read_excel('경로.xlsx'): 엑셀 파일을 읽어옵니다.
  • pd.read_sql(query, con=engine): 데이터베이스에서 SQL 쿼리 결과로 읽어옵니다.
  • df.to_csv('경로.csv', index=False): 데이터프레임을 CSV로 저장합니다. (index=False 필수 권장)

2. 데이터 구조 파악하기 (초기 확인)

  • df.shape: 데이터의 전체 크기(행 개수, 열 개수)를 튜플 형태로 보여줍니다.
  • df.info(): 총 데이터 수, 컬럼별 데이터 타입(문자/숫자 등), 결측치 여부를 요약해 줍니다.
  • df.describe(): 수치형 데이터들의 통계값(평균, 표준편차, 최대/최소값 등)을 보여줍니다.
  • df.head(n) / df.tail(n): 데이터의 맨 위쪽(head) / 맨 아래쪽(tail) n개 행을 미리 봅니다. (기본값 5)
  • df.isnull().sum(): 각 컬럼별로 결측치(빈칸)가 몇 개 있는지 합산해서 보여줍니다.

3. 인덱스(행) 및 컬럼(열) 관리

  • df.columns: 전체 컬럼 이름들을 확인합니다.
  • df.index: 전체 인덱스(행 이름)를 확인합니다.
  • df.rename(columns={'기존': '새이름'}, inplace=True): 컬럼이나 인덱스의 이름을 개별적으로 변경합니다.
  • df.set_index('컬럼명'): 특정 컬럼을 표의 인덱스(기준 이름표)로 끌어옵니다.
  • df.reset_index(drop=True): 설정된 인덱스를 지우고 다시 기본 번호(0, 1, 2...)로 초기화합니다.

4. 행/열 추가 및 삭제 (drop, insert)

  • df.drop(columns=['컬럼명']): 지정한 열을 삭제합니다.
  • df.drop(index=['행이름']): 지정한 행을 삭제합니다.
  • df.drop_duplicates(): 완전히 똑같은 중복 행이 있다면 하나만 남기고 삭제합니다.
  • df['새컬럼'] = 값: 표의 맨 오른쪽에 새로운 열(파생변수)을 추가합니다.
  • df.insert(위치번호, '새컬럼', 값): 원하는 특정 순서(위치)에 새로운 열을 끼워 넣습니다.
  • df.loc['새행이름'] = [값1, 값2...]: 새로운 행을 추가합니다.

5. 원하는 데이터만 조회하기 (인덱싱, 필터링)

  • df['컬럼명'] / df[['컬럼1', '컬럼2']]: 원하는 열만 뽑아옵니다. (여러 개는 대괄호 2개 사용)
  • df.loc['행이름', '열이름']: 눈에 보이는 이름(라벨)을 기준으로 특정 행과 열의 값을 찾아옵니다.
  • df.iloc[행번호, 열번호]: 0부터 시작하는 숫자 순번(위치)을 기준으로 값을 찾아옵니다.
  • df.query("컬럼명 >= 80 and 컬럼명2 == '값'"): SQL처럼 문자열 조건식을 써서 원하는 데이터(행)만 필터링합니다.
  • df.select_dtypes(include='타입'): 특정 데이터 타입(예: 'int64', 'object')을 가진 열만 골라냅니다.
  • df.filter(like='단어'): 컬럼 이름에 특정 단어가 포함된 열만 골라냅니다.
반응형