Pandas 데이터 전처리 실습

2022. 5. 17. 01:05·Data Science/coding pratice

실제 부동산 데이터로 데이터전처리 실습을 진행

 

1. column 재정의→ rename

: column의 이름이 복잡할 경우 재정의를 해준다

#내가짠코드

df.columns = ['지역명', '규모구분', '연도', '월', '분양가격']

>> 이름을 다 넣어줘서 column이름을 새로 부여해줌

 

#해설

df = df.rename(columns={'분양가격(㎡)':'분양가격'})

 

2. column의 datatype 변환: astype

df['분양가격'].astype(int)

 

3. strip으로 공백이 있는 데이터 공백없애기: strip()

column의 문자열에 strip을 실행하고자 할 때는 str.strip()

 

df.loc[df['분양가격']=='   ']                              #확인

df['분양가격'] = df['분양가격'].str.strip()             #공백제거

df.loc[df['분양가격']=='   ']                              #공백 제거됐는지 확인

 

4. ,(콤마) 값 없애기: replace()

df['분양가격'] = df.str.replace(',', '')

 

5. 지역별 분양가 확인: groupby 사용

df.groupby('지역명')['분양가격'].mean()

 

6. 분양가격이 100보다 작은 행은 제거하기

idx = df.loc[df['분양가격']<100].index           # 1) 해당 조건에 맞는 column의 index number를 list로 가져온다

df = df.drop(idx, axis=0)                           # 2) drop(인덱스 넘버, axis=0), 행이므로 axis=0

 

df.count()로 row 갯수 확인

 

6-1) 지역별 최고 비싼 분양가는?

df.groupby('지역명')['분양가격'].max()

 

7. 연도별로 분양가격 확인

df.groupby('연도')['분양가격'].mean()

 

8. 피봇테이블을 활용해서 보기

pd.pivot_table(df, index = '연도', columns='규모구분', values='분양가격')

df.pivot_table(index = '연도', columns='규모구분', values='분양가격')

 

9. 연도별, 규모별 가격확인

df.groupby(['연도', '규모구분'])['분양가격'].mean()

 

9-1) 눈에 들어오도록 dataframe화

pd.DataFrame(df.groupby(['연도', '규모구분'])['분양가격'].mean())

 


끝~

저작자표시 비영리 동일조건 (새창열림)

'Data Science > coding pratice' 카테고리의 다른 글

알고리즘 스터디0. 시간복잡도와 빅오(Big O)  (0) 2022.10.13
시각화 01  (0) 2022.05.23
Numpy 03  (0) 2022.05.01
Numpy  (0) 2022.04.22
pandas 복습 3  (0) 2021.02.27
'Data Science/coding pratice' 카테고리의 다른 글
  • 알고리즘 스터디0. 시간복잡도와 빅오(Big O)
  • 시각화 01
  • Numpy 03
  • Numpy
희스레저
희스레저
👩🏻‍🎓 Master Student in IS(Information System) 📚 Data Science & Causal Inference Study 🎬 Hobby
  • 희스레저
    Data Dive
    희스레저
  • 전체
    오늘
    어제
    • 분류 전체보기 (52)
      • 일상 log (4)
        • 브이로그 아카이브 (0)
        • note (3)
      • 리뷰 (1)
        • 영화 (1)
        • OTT (0)
      • Data Science (38)
        • ML (6)
        • DL (4)
        • LLM (5)
        • Econometrics (5)
        • coding pratice (9)
        • kaggle study (1)
        • Python 기초 (4)
        • CS231n (1)
        • Paper (3)
      • Idea (8)
        • 분야 탐방 (5)
        • 대학원준비 (2)
        • book blogging (1)
        • 취업준비 (0)
  • 블로그 메뉴

    • 홈
    • 방명록
    • 블로그
    • Write
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    영화소울
    카누추천
    promptengineering
    Econometrics
    모두연
    모두의연구소
    계량경제테스트
    GenAI
    놈코어커피
    모두콘2023
    계량경제학
    모두콘
    fixed effect
    fixed effects
    생성형AI
    고정효과
    소울후기
    계량경제
    panel data
    불연속회귀
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.0
희스레저
Pandas 데이터 전처리 실습
상단으로

티스토리툴바