ML 2. Logistic Regression(로지스틱 회귀모형)
1. Logistic Regression(로지스틱 회귀모형) 개념
2. Confusion Matrix와 AUROC
3. Multiclass Classification
1. Logistic Regression(로지스틱 회귀모형) 개념
연속형 데이터를 input하여 sigmoid 함수를 통해 이산형(범주형) 데이터를 도출(output)
ex)binary classfication
Linear Regression + Rogistic Functoin (선형회귀 + 로지스틱 함수)
즉, 정답이 범주형일 때 사용하는 Regression Model
일반 선형/비선형 회귀모델과 같이 연속형 데이터를 넣어주는 것(input)은 같음
https://www.youtube.com/watch?v=14eTDPJLkis
2. Confusion matrix
- ROC 그래프
x축(FPR, 재현못한비율)과 y축(TPR, 재현잘한비율)로 구성된 공간에서 그린 그래프(roc)그래프의 밑면적이 클수록 threshold가 best.
여기서는 재현율을 기준으로 본다.
*threshold: 확률값을 범주형으로 변환할 때의 기준
*재현율(recall): 맞춘 개수 / 실제 개수
*정밀도(precision): 맞춘 개수 / 예측한 개수
*TPR: True Positive Ratio 실제 positive(Actual Positive) 중 positive(True Positive)라고 판단한 비율 즉, 실제로 positive인데 positive라고 잘 판단한 비율 |
*FPR: False Positive Ratio 실제 negative(Actual Negative) 중 positive(False Positive)라고 판단한 비율 즉,실제로는 negative인데 positive라고 잘못 판단한 비율 |
- ROC 커브의 밑면적의 넓이가 AUROC
J = TPR + (FPR-1)
(TPR이 가장 클 때와 FPR이 가장 작을 때가 best threshold)
J를 가장 크게 만드는 Threshold로 사용하는 것이 best.
https://blog.naver.com/gyrbsdl18/222556439520
3. Multiclass Classification
: 범주가 3개 이상일 때
-> One or Nothing
P(y = 0) | P(y = 1) | P(y = 2) |
0.3 | 0.5 | 0.2 |
확률이 제일 높은 class가 예측값이 됨 (y = 1) P(y = 1이 아님) 확률이 0.5로 가장 작음 |
multiclass일 때의 logistic regression
iris data 활용, one or rest(one or nothing) 옵션을 줄 수 있음
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gdpresent&logNo=221716396894