Pandas 데이터 전처리 실습
·
Data Science/coding pratice
실제 부동산 데이터로 데이터전처리 실습을 진행 1. column 재정의→ rename : column의 이름이 복잡할 경우 재정의를 해준다 #내가짠코드 df.columns = ['지역명', '규모구분', '연도', '월', '분양가격'] >> 이름을 다 넣어줘서 column이름을 새로 부여해줌 #해설 df = df.rename(columns={'분양가격(㎡)':'분양가격'}) 2. column의 datatype 변환: astype df['분양가격'].astype(int) 3. strip으로 공백이 있는 데이터 공백없애기: strip() column의 문자열에 strip을 실행하고자 할 때는 str.strip() df.loc[df['분양가격']==' '] #확인 df['분양가격'] = df['분양가격']...
paper study 01 - 고객의 특성 정보를 활용한 화장품 추천시스템 개발
·
Data Science/Paper
Today's paper 고객의 특성 정보를 활용한 화장품 추천시스템 개발 - 김효중, 신우식, 신동훈, 김희웅, 김화경 오늘은 지금 읽고 있는 논문 공부 기록을 하겠다. 저작권상 자세한 설명은 할 수 없고, 읽는 과정에서 막히는 개념을 그때그때 학습하려한다. 참고링크 https://huidea.tistory.com/263 [Machine learning] 추천 알고리즘의 기초 총정리 - Collaborative filtering , Matrix Factorization, SVD, Factorization 0. 추천 알고리즘의 종류 https://towardsdatascience.com/various-implementations-of-collaborative-filtering-100385c6dfe0 1)..
Numpy 03
·
Data Science/coding pratice
목차 -arange: array, list를 생성함 -range: 반복문 구문 내에서 범위 지정 -정렬(sort) -인덱스를 반환하는 argsort -broadcasting arange와 range를 같이 보고 이해하기 우리는 순차적인 값을 생성할 때가 많다. 1. 회원에 대한 가입정보 부여(1번 회원부터 순차적으로) 2. 100개 한정판매 상품에 대한 고유번호 부여 데이터 관리를 위해 인덱스를 부여하는 것은 일반적이다. 1. arange 1-1. 순서대로 list에 값을 생성하려면? arr = [1,2,3,4,5,6,7,8,9,10] #이렇게 해도 되는데.. 귀찮다 arr = np.arange(1,11) #1이상 11미만으로 숫자를 넣어준다 (첫번째 인자에는 start 이상, 두번째 인자에는 stop의..
캐글 공부 시작 - 입문하기
·
Data Science/kaggle study
https://unfinishedgod.netlify.app/2020/03/22/%EC%BA%90%EA%B8%80-%EC%9E%85%EB%AC%B8%EC%9E%90%EB%A5%BC-%EC%9C%84%ED%95%9C-%EA%B0%80%EC%9D%B4%EB%93%9C-%EB%AC%B8%EC%84%9C/ 캐글 입문자를 위한 가이드 문서 - 미완성의신 데이터 분석을 공부하다보면 언젠가 듣는 이름이 있다. “캐글”. 캐글이 뭔가 하고 검색을 해보면 “2010년에 설립된 예측 모델 및 분석 대회 플랫폼으로 기업 및 단체에서 데이터와 해결과제를 unfinishedgod.netlify.app 링크 참조 5월 첫주 목표, 타이타닉 노트북 분석해보기 5월 안 해야하는 것들 -저널or논문 읽기 -파이썬 ai 수학 책 읽기 ..
Numpy
·
Data Science/coding pratice
https://blog.naver.com/rlawozl96/222652701056 Python - Numpy 01 이제부터 목차를 적어줘야겠다.. 내용많은데 뭐있는지 몰라서 헷갈림 - numpy 개요 - numpy array: np.arra... blog.naver.com Numpy 1 -numpy 개요 -numpy array -numpy dtype -numpy indexing, slicing 1D array: 행벡터, 열벡터 2D array: Matrix(2차원 텐서) 3D array: 텐서 https://blog.naver.com/rlawozl96/222652765082 Numpy 02 목차 -Fancy indexing: 집합으로 추출, 복습잘하기 -Boolean indexing: 조건(T/F)으로 ..
Python 기초
·
Data Science/Python 기초
잠시 티스토리를 방치하고 블로그에 정리해뒀던 것을 다시 티스토리로 백업하기... https://blog.naver.com/rlawozl96/222573880972 Python 1 다시 파이썬... 티스토리까지 관리할 자신이 없어서 다시 블로그로 돌아옴 예전에 들었던 부분 기억이 안나... blog.naver.com Python 1 -데이터 타입, list tuple set dict 개념, length 파악 https://blog.naver.com/rlawozl96/222587658689 Python 2 0. Other Calculation a = 10 b = 3 1) % : 몫을 나눈 나머지를 구함 a % b = 1 (10/3... blog.naver.com Python 2 -calculation, in..
pandas 복습 3
·
Data Science/coding pratice
목차 - 데이터프레임 병합(merge): concat 차이 (left, right, inner, outer), column이 다를때 merge - astype(), dtype() : 데이터 타입 변경 - pd.to_datetime - dt.함수 - 값을 넣어주는 방법 3가지 - apply: 함수 def 정의하여 적용 ex.성별 남/여를 0,1로 바꾸기 등 - lambda: lambda x: 수식 (함수식 간단히 한줄로) - map: dict형태로 key, value값에 각각 할당 - 데이터프레임의 산술연산(시리즈) column과 column 간 연산 column과 숫자 간 연산 복합연산 mean(), sum()을 axis 기준으로 연산(열의 총합계, 행의 총합계) NaN 값이 존재할경우의 연산 - 데이터..
pandas 복습 2
·
Data Science/coding pratice
고객의 특성 정보를 활용한 화장품 추천시스템 개발목차 -group by: 그룹별 통계(count, sum 등 함수덧붙여 사용) -multi index -multi index를 pivot table로 변환: unstack -reset_index() * -fillna: 결측치 채우기 -dropna: 결측치 있는 row/column 제거 -drop_duplicate: 중복치 있는 row/column 제거 (keep: first/last 옵션 가능) -drop: 행,열 제거 -데이터프레임 합치기(옆으로 합치기axis=1, 아래로 합치기sort=False) Import pandas as pd 1) Group by : 그룹별 통계 df. groupby('소속사') #아무것도 출력 안 됨. 추가적으로 취할 통계함수를..