Ensemble(앙상블): Bagging과 Boosting, Stacking
·
Data Science/ML
Ensemble(앙상블)이란?여러개의 분류기를 생성하고 그 예측을 결합함으로써 최종 예측을 도출하는 방법 Bagging과 Boosting의 차이점Bagging: 병렬적, parallel함Bootstrap Aggregating, 부트스트랩(랜덤 샘플링)을 집계하는 것, 여러 샘플 조합에 대하여 하나의 알고리즘(모델) 활용샘플링 과정은 복원추출임데이터가 많지 않아도 충분한 학습효과를 주어 underfitting, overfitting 문제에 도움됨Bagging의 대표적인 기법으로 RandomForest가 있음  Boosting: 순차적, sequential함오분류된 학습 데이터에 대해서 가중치를 주고 다음 모델(분류기)에서 해당 데이터를 학습하게 유도먼저 생성된 모델을 점점 발전시켜나가는 방법임   Stac..
ML 1. 회귀분석
·
Data Science/ML
보호되어 있는 글입니다.
ML 3. 시계열분석 - AR, MA, ARIMA
·
Data Science/ML
방문자수 데이터 분석을 하는데 RNN, LSTM도 중요하지만 ARIMA도 한 번 내가 가진 데이터에 적용해볼 수 있지 않을까하여 ARIMA를 더 공부해보기로 했다. 가보자고! 전반적인 출처는 https://assaeunji.github.io/statistics/2021-08-23-arima/ 시계열 분석 시리즈 (2): AR / MA / ARIMA 모형, 어디까지 파봤니? 이번 포스팅은 실전 시계열 분석: 통계와 머신러닝을 활용한 예측 기법 책과 Forecasting: Principles and Practice책을 기반으로 AR, MA, ARIMA 모형을 정리하고자 합니다. 제목은 “어디까지 파봤니”로 거 assaeunji.github.io 입니다... ARIMA Autoregressive Integre..
ML 0. 통계분석 | 통계적 추론과 통계적 검정
·
Data Science/ML
통계분석(Statistical Analsis) 1. 통계학과 기술통계 2. 확률분포 3. 통계적 추론과 통계적 검정 ← 오늘은 여기! 1번과 2번을 먼저 보고싶다면? https://heesleisure.tistory.com/28 ML 0. 통계분석 통계분석(Statistical Analsis) 1. 통계학과 기술통계 2. 확률분포 3. 통계적 추론과 통계적 검정 1. 기술통계 데이터의 속성을 특정한 통계량을사용해 정리, 요약, 설명하는 방법 중심척도 중심경향성: heesleisure.tistory.com 3. 통계적 추론과 통계적 검정 1) 기술통계와 추론통계 - 기술통계: 측정이나 실험을 통해 수집한 통계 자료의 정리/표현/요약/해석을 통하여 자료의 특성을 규명하는 방법과 기법 - 추론통계: 한 모집단..
ML 0. 통계분석
·
Data Science/ML
통계분석(Statistical Analsis) 1. 통계학과 기술통계 2. 확률분포 3. 통계적 추론과 통계적 검정 1. 기술통계 데이터의 속성을 특정한 통계량을사용해 정리, 요약, 설명하는 방법 중심척도 중심경향성: 중심적인 경향을 나타내는 주요한 기술통계 산술평균, 중앙값, 최빈치 산포척도 데이터가 퍼져있는 정도를 설명하는 기술통계 범위, 분산, 표준편차, 사분위수 범위(IQR) 분포모양 데이터가 퍼져있는 형태를 나타낸 것 도수분포, 비대칭도(왜도, 치우친 정도), 첨도(뾰족한가 완만한가) 1) 산포척도 - 범위: 최대값과 최소값의 차이 - 제곱의 합(Sum of Squares) 편차는 다 더하면 0이 되는 딜레마가 생긴다 → MSE(제곱하여 합) / MAE(절대값의 합) 잘 알려진 예는 표준편차, ..
ML 2. Logistic Regression(로지스틱 회귀모형)
·
Data Science/ML
1. Logistic Regression(로지스틱 회귀모형) 개념 2. Confusion Matrix와 AUROC 3. Multiclass Classification 1. Logistic Regression(로지스틱 회귀모형) 개념 연속형 데이터를 input하여 sigmoid 함수를 통해 이산형(범주형) 데이터를 도출(output) ex)binary classfication Linear Regression + Rogistic Functoin (선형회귀 + 로지스틱 함수) 즉, 정답이 범주형일 때 사용하는 Regression Model 일반 선형/비선형 회귀모델과 같이 연속형 데이터를 넣어주는 것(input)은 같음 https://www.youtube.com/watch?v=14eTDPJLkis 2. Con..