1. Logistic Regression(로지스틱 회귀모형) 개념
2. Confusion Matrix와 AUROC
3. Multiclass Classification
1. Logistic Regression(로지스틱 회귀모형) 개념
연속형 데이터를 input하여 sigmoid 함수를 통해 이산형(범주형) 데이터를 도출(output)
ex)binary classfication
Linear Regression + Rogistic Functoin (선형회귀 + 로지스틱 함수)
즉, 정답이 범주형일 때 사용하는 Regression Model
일반 선형/비선형 회귀모델과 같이 연속형 데이터를 넣어주는 것(input)은 같음
https://www.youtube.com/watch?v=14eTDPJLkis
2. Confusion matrix
- ROC 그래프
x축(FPR, 재현못한비율)과 y축(TPR, 재현잘한비율)로 구성된 공간에서 그린 그래프(roc)그래프의 밑면적이 클수록 threshold가 best.
여기서는 재현율을 기준으로 본다.
*threshold: 확률값을 범주형으로 변환할 때의 기준
*재현율(recall): 맞춘 개수 / 실제 개수
*정밀도(precision): 맞춘 개수 / 예측한 개수
*TPR: True Positive Ratio 실제 positive(Actual Positive) 중 positive(True Positive)라고 판단한 비율 즉, 실제로 positive인데 positive라고 잘 판단한 비율 |
*FPR: False Positive Ratio 실제 negative(Actual Negative) 중 positive(False Positive)라고 판단한 비율 즉,실제로는 negative인데 positive라고 잘못 판단한 비율 |
- ROC 커브의 밑면적의 넓이가 AUROC
J = TPR + (FPR-1)
(TPR이 가장 클 때와 FPR이 가장 작을 때가 best threshold)
J를 가장 크게 만드는 Threshold로 사용하는 것이 best.
https://blog.naver.com/gyrbsdl18/222556439520
3. Multiclass Classification
: 범주가 3개 이상일 때
-> One or Nothing
P(y = 0) | P(y = 1) | P(y = 2) |
0.3 | 0.5 | 0.2 |
확률이 제일 높은 class가 예측값이 됨 (y = 1) P(y = 1이 아님) 확률이 0.5로 가장 작음 |
multiclass일 때의 logistic regression
iris data 활용, one or rest(one or nothing) 옵션을 줄 수 있음
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gdpresent&logNo=221716396894
'Data Science > ML' 카테고리의 다른 글
Ensemble(앙상블): Bagging과 Boosting, Stacking (1) | 2024.07.06 |
---|---|
ML 1. 회귀분석 (0) | 2023.02.25 |
ML 3. 시계열분석 - AR, MA, ARIMA (0) | 2022.11.29 |
ML 0. 통계분석 | 통계적 추론과 통계적 검정 (0) | 2022.11.16 |
ML 0. 통계분석 (0) | 2022.10.22 |