ML 0. 통계분석
·
Data Science/ML
통계분석(Statistical Analsis) 1. 통계학과 기술통계 2. 확률분포 3. 통계적 추론과 통계적 검정 1. 기술통계 데이터의 속성을 특정한 통계량을사용해 정리, 요약, 설명하는 방법 중심척도 중심경향성: 중심적인 경향을 나타내는 주요한 기술통계 산술평균, 중앙값, 최빈치 산포척도 데이터가 퍼져있는 정도를 설명하는 기술통계 범위, 분산, 표준편차, 사분위수 범위(IQR) 분포모양 데이터가 퍼져있는 형태를 나타낸 것 도수분포, 비대칭도(왜도, 치우친 정도), 첨도(뾰족한가 완만한가) 1) 산포척도 - 범위: 최대값과 최소값의 차이 - 제곱의 합(Sum of Squares) 편차는 다 더하면 0이 되는 딜레마가 생긴다 → MSE(제곱하여 합) / MAE(절대값의 합) 잘 알려진 예는 표준편차, ..
알고리즘 스터디0. 시간복잡도와 빅오(Big O)
·
Data Science/coding pratice
1. 시간복잡도란? (Time Complexity) 실행시간(running time)이란 함수/알고리즘 수행에 필요한 스텝(step) 수 각 라인을 수행하기 위해 필요한 스텝 수는 상수(constant)라고 가정 T(N) = c1 + c2*(N+1) + c3*N + 1 = (c2+c3)*N + c1 + c2 + 1 = a*N + b N이 작을 때의 실행시간은 의미가 없다. N이 무한대로 갈 때 N이 커질수록 덜 중요한 것은 제거(b 제거) 최고차항만이 의미를 갖게되며(여기서는 N) 최고차항의 계수(a) 또한 의미가 없다.(a 제거) → N만 남음 (Big) theta N = N → 점근적 분석에 따른 점근적 표기법 또한 시간복잡도는 함수의 실행시간을 점근적 분석을 통해 점근적 표기법으로 표현한다. 시간..
ML 2. Logistic Regression(로지스틱 회귀모형)
·
Data Science/ML
1. Logistic Regression(로지스틱 회귀모형) 개념 2. Confusion Matrix와 AUROC 3. Multiclass Classification 1. Logistic Regression(로지스틱 회귀모형) 개념 연속형 데이터를 input하여 sigmoid 함수를 통해 이산형(범주형) 데이터를 도출(output) ex)binary classfication Linear Regression + Rogistic Functoin (선형회귀 + 로지스틱 함수) 즉, 정답이 범주형일 때 사용하는 Regression Model 일반 선형/비선형 회귀모델과 같이 연속형 데이터를 넣어주는 것(input)은 같음 https://www.youtube.com/watch?v=14eTDPJLkis 2. Con..
Python numpy: reshape(-1, n) 에서 -1은 뭘까?
·
Data Science/Python 기초
Regression 인강듣는 도중 나온 reshape(-1, 1)을 보고 -1이 왜 들어가는걸까? 하고 궁금해서 찾아봄 결론부터, -1은 마치 n과 같이 가변적임을 나타내는 숫자이며, 뒤의 열의 숫자에 따라서 모든 원소가 누락되지 않도록 행렬을 구성해줌 ex) a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]]) a.shape >> (3, 4) a.reshape(-1, 12) >> 열이 12개가 되도록 행이 1개가 됨 a.reshape(-1, 6) a.reshape(-1, 2) a.reshape(-1,12) 열이 6개가 되어야 하므로 2x6 행렬 구성 열이 2개가 되어야 하므로 6x2 행렬 구성 열이 12개가 되어야 하므로 1x12 행렬 구성 1 3 5 7 9 11 ..
시각화 01
·
Data Science/coding pratice
목차 1. 그래프 그릴 때 한글 깨지는 현상 해결하기 2. Plot 그래프 2-1) line 2-2) bar 2-3) 히스토그램 3. 커널밀도 그래프, hexbin 3-1) 커널밀도그래프 3-2) hexbin(고밀도 산점도) 4. box plot 5. 6. scatter plot 1. 그래프 그릴 때 한글 깨지는 현상 해결하기 df = pd.read_csv('https://bit.ly/ds-house-price-clean') df.plot 이렇게 범주부분에서 한글이 깨지는 모습을 볼 수 있다. STEP 1. 아래 코드를 실행 !apt-get -qq -y install fonts-nanum > /dev/null import matplotlib.pyplot as plt import matplotlib.fon..
Pandas 데이터 전처리 실습
·
Data Science/coding pratice
실제 부동산 데이터로 데이터전처리 실습을 진행 1. column 재정의→ rename : column의 이름이 복잡할 경우 재정의를 해준다 #내가짠코드 df.columns = ['지역명', '규모구분', '연도', '월', '분양가격'] >> 이름을 다 넣어줘서 column이름을 새로 부여해줌 #해설 df = df.rename(columns={'분양가격(㎡)':'분양가격'}) 2. column의 datatype 변환: astype df['분양가격'].astype(int) 3. strip으로 공백이 있는 데이터 공백없애기: strip() column의 문자열에 strip을 실행하고자 할 때는 str.strip() df.loc[df['분양가격']==' '] #확인 df['분양가격'] = df['분양가격']...
paper study 01 - 고객의 특성 정보를 활용한 화장품 추천시스템 개발
·
Data Science/Paper
Today's paper 고객의 특성 정보를 활용한 화장품 추천시스템 개발 - 김효중, 신우식, 신동훈, 김희웅, 김화경 오늘은 지금 읽고 있는 논문 공부 기록을 하겠다. 저작권상 자세한 설명은 할 수 없고, 읽는 과정에서 막히는 개념을 그때그때 학습하려한다. 참고링크 https://huidea.tistory.com/263 [Machine learning] 추천 알고리즘의 기초 총정리 - Collaborative filtering , Matrix Factorization, SVD, Factorization 0. 추천 알고리즘의 종류 https://towardsdatascience.com/various-implementations-of-collaborative-filtering-100385c6dfe0 1)..
Numpy 03
·
Data Science/coding pratice
목차 -arange: array, list를 생성함 -range: 반복문 구문 내에서 범위 지정 -정렬(sort) -인덱스를 반환하는 argsort -broadcasting arange와 range를 같이 보고 이해하기 우리는 순차적인 값을 생성할 때가 많다. 1. 회원에 대한 가입정보 부여(1번 회원부터 순차적으로) 2. 100개 한정판매 상품에 대한 고유번호 부여 데이터 관리를 위해 인덱스를 부여하는 것은 일반적이다. 1. arange 1-1. 순서대로 list에 값을 생성하려면? arr = [1,2,3,4,5,6,7,8,9,10] #이렇게 해도 되는데.. 귀찮다 arr = np.arange(1,11) #1이상 11미만으로 숫자를 넣어준다 (첫번째 인자에는 start 이상, 두번째 인자에는 stop의..