차트 시각화 - 시계열 그래프 그리기
·
Data Science/coding pratice
https://joyfuls.tistory.com/54 시각화 """ from datetime import datetime # 패키지 - 모듈 (이름 같음) import pandas as pd # csv file read import matplotlib.pyplot as pl" data-og-host="joyfuls.tistory.com" data-og-source-url="https://joyfuls.tistory.com/54" data-og-url="https://joyfuls.tistory.com/54" data-og-image="https://scrap.kakaocdn.net/dn/dSJ36n/hyQE3Z37yl/LyLsBOtJvgAnyixFl1l9bK/img.png?width=597&height..
알고리즘 스터디0. 시간복잡도와 빅오(Big O)
·
Data Science/coding pratice
1. 시간복잡도란? (Time Complexity) 실행시간(running time)이란 함수/알고리즘 수행에 필요한 스텝(step) 수 각 라인을 수행하기 위해 필요한 스텝 수는 상수(constant)라고 가정 T(N) = c1 + c2*(N+1) + c3*N + 1 = (c2+c3)*N + c1 + c2 + 1 = a*N + b N이 작을 때의 실행시간은 의미가 없다. N이 무한대로 갈 때 N이 커질수록 덜 중요한 것은 제거(b 제거) 최고차항만이 의미를 갖게되며(여기서는 N) 최고차항의 계수(a) 또한 의미가 없다.(a 제거) → N만 남음 (Big) theta N = N → 점근적 분석에 따른 점근적 표기법 또한 시간복잡도는 함수의 실행시간을 점근적 분석을 통해 점근적 표기법으로 표현한다. 시간..
시각화 01
·
Data Science/coding pratice
목차 1. 그래프 그릴 때 한글 깨지는 현상 해결하기 2. Plot 그래프 2-1) line 2-2) bar 2-3) 히스토그램 3. 커널밀도 그래프, hexbin 3-1) 커널밀도그래프 3-2) hexbin(고밀도 산점도) 4. box plot 5. 6. scatter plot 1. 그래프 그릴 때 한글 깨지는 현상 해결하기 df = pd.read_csv('https://bit.ly/ds-house-price-clean') df.plot 이렇게 범주부분에서 한글이 깨지는 모습을 볼 수 있다. STEP 1. 아래 코드를 실행 !apt-get -qq -y install fonts-nanum > /dev/null import matplotlib.pyplot as plt import matplotlib.fon..
Pandas 데이터 전처리 실습
·
Data Science/coding pratice
실제 부동산 데이터로 데이터전처리 실습을 진행 1. column 재정의→ rename : column의 이름이 복잡할 경우 재정의를 해준다 #내가짠코드 df.columns = ['지역명', '규모구분', '연도', '월', '분양가격'] >> 이름을 다 넣어줘서 column이름을 새로 부여해줌 #해설 df = df.rename(columns={'분양가격(㎡)':'분양가격'}) 2. column의 datatype 변환: astype df['분양가격'].astype(int) 3. strip으로 공백이 있는 데이터 공백없애기: strip() column의 문자열에 strip을 실행하고자 할 때는 str.strip() df.loc[df['분양가격']==' '] #확인 df['분양가격'] = df['분양가격']...
Numpy 03
·
Data Science/coding pratice
목차 -arange: array, list를 생성함 -range: 반복문 구문 내에서 범위 지정 -정렬(sort) -인덱스를 반환하는 argsort -broadcasting arange와 range를 같이 보고 이해하기 우리는 순차적인 값을 생성할 때가 많다. 1. 회원에 대한 가입정보 부여(1번 회원부터 순차적으로) 2. 100개 한정판매 상품에 대한 고유번호 부여 데이터 관리를 위해 인덱스를 부여하는 것은 일반적이다. 1. arange 1-1. 순서대로 list에 값을 생성하려면? arr = [1,2,3,4,5,6,7,8,9,10] #이렇게 해도 되는데.. 귀찮다 arr = np.arange(1,11) #1이상 11미만으로 숫자를 넣어준다 (첫번째 인자에는 start 이상, 두번째 인자에는 stop의..
Numpy
·
Data Science/coding pratice
https://blog.naver.com/rlawozl96/222652701056 Python - Numpy 01 이제부터 목차를 적어줘야겠다.. 내용많은데 뭐있는지 몰라서 헷갈림 - numpy 개요 - numpy array: np.arra... blog.naver.com Numpy 1 -numpy 개요 -numpy array -numpy dtype -numpy indexing, slicing 1D array: 행벡터, 열벡터 2D array: Matrix(2차원 텐서) 3D array: 텐서 https://blog.naver.com/rlawozl96/222652765082 Numpy 02 목차 -Fancy indexing: 집합으로 추출, 복습잘하기 -Boolean indexing: 조건(T/F)으로 ..
pandas 복습 3
·
Data Science/coding pratice
목차 - 데이터프레임 병합(merge): concat 차이 (left, right, inner, outer), column이 다를때 merge - astype(), dtype() : 데이터 타입 변경 - pd.to_datetime - dt.함수 - 값을 넣어주는 방법 3가지 - apply: 함수 def 정의하여 적용 ex.성별 남/여를 0,1로 바꾸기 등 - lambda: lambda x: 수식 (함수식 간단히 한줄로) - map: dict형태로 key, value값에 각각 할당 - 데이터프레임의 산술연산(시리즈) column과 column 간 연산 column과 숫자 간 연산 복합연산 mean(), sum()을 axis 기준으로 연산(열의 총합계, 행의 총합계) NaN 값이 존재할경우의 연산 - 데이터..
pandas 복습 2
·
Data Science/coding pratice
고객의 특성 정보를 활용한 화장품 추천시스템 개발목차 -group by: 그룹별 통계(count, sum 등 함수덧붙여 사용) -multi index -multi index를 pivot table로 변환: unstack -reset_index() * -fillna: 결측치 채우기 -dropna: 결측치 있는 row/column 제거 -drop_duplicate: 중복치 있는 row/column 제거 (keep: first/last 옵션 가능) -drop: 행,열 제거 -데이터프레임 합치기(옆으로 합치기axis=1, 아래로 합치기sort=False) Import pandas as pd 1) Group by : 그룹별 통계 df. groupby('소속사') #아무것도 출력 안 됨. 추가적으로 취할 통계함수를..