Data Science/ML
Ensemble(앙상블): Bagging과 Boosting, Stacking
희스레저
2024. 7. 6. 15:25
Ensemble(앙상블)이란?
여러개의 분류기를 생성하고 그 예측을 결합함으로써 최종 예측을 도출하는 방법
Bagging과 Boosting의 차이점
Bagging: 병렬적, parallel함
- Bootstrap Aggregating, 부트스트랩(랜덤 샘플링)을 집계하는 것, 여러 샘플 조합에 대하여 하나의 알고리즘(모델) 활용
- 샘플링 과정은 복원추출임
- 데이터가 많지 않아도 충분한 학습효과를 주어 underfitting, overfitting 문제에 도움됨
- Bagging의 대표적인 기법으로 RandomForest가 있음
Boosting: 순차적, sequential함
- 오분류된 학습 데이터에 대해서 가중치를 주고 다음 모델(분류기)에서 해당 데이터를 학습하게 유도
- 먼저 생성된 모델을 점점 발전시켜나가는 방법임
Stacking: Cross validation
개별 모델이 예측한 결과를 다시 meta dataset으로 활용해서 학습함
Base learner 모델들의 validation, test dataset과 생성한 예측 값을 모아서 meta train/test 데이터로 활용함
- 하나의 데이터셋에 3개 이상의 알고리즘을 사용하여 예측 값을 만든다. 그리고 최종 모델의 학습 데이터로 사용한다.
- ex) KNN,Logistic, XGBoost, 모델을 사용해 3종류 예측 값을 구하고, 최종 모델인 RandomForest의 학습 데이터로 사용하여, 최종 예측값을 구함
출처1: https://lsjsj92.tistory.com/558
출처3: https://data-analysis-science.tistory.com/61