Data Science/ML

ML 2. Logistic Regression(로지스틱 회귀모형)

희스레저 2022. 7. 23. 16:56

1. Logistic Regression(로지스틱 회귀모형) 개념
2. Confusion Matrix와 AUROC
3. Multiclass Classification


1. Logistic Regression(로지스틱 회귀모형) 개념

연속형 데이터를 input하여 sigmoid 함수를 통해 이산형(범주형) 데이터를 도출(output)
ex)binary classfication

Linear Regression + Rogistic Functoin (선형회귀 + 로지스틱 함수)
즉, 정답이 범주형일 때 사용하는 Regression Model

일반 선형/비선형 회귀모델과 같이 연속형 데이터를 넣어주는 것(input)은 같음
https://www.youtube.com/watch?v=14eTDPJLkis

 

2. Confusion matrix

- ROC 그래프
x축(FPR, 재현못한비율)y축(TPR, 재현잘한비율)로 구성된 공간에서 그린 그래프(roc)그래프의 밑면적이 클수록 threshold가 best.

여기서는 재현율을 기준으로 본다.


*threshold: 확률값을 범주형으로 변환할 때의 기준

*재현율(recall): 맞춘 개수 / 실제 개수

*정밀도(precision): 맞춘 개수 / 예측한 개수

 

 



*TPR: True Positive Ratio
실제 positive(Actual Positive) 중 positive(True Positive)라고 판단한 비율

즉, 실제로 positive인데 positive라고 잘 판단한 비율
*FPR: False Positive Ratio
실제 negative(Actual Negative) 중 positive(False Positive)라고 판단한 비율

즉,실제로는 negative인데 positive라고 잘못 판단한 비율

 

 

- ROC 커브의 밑면적의 넓이가 AUROC

J  = TPR + (FPR-1)

(TPR이 가장 클 때와 FPR이 가장 작을 때가 best threshold)

J를 가장 크게 만드는 Threshold로 사용하는 것이 best.

 


https://blog.naver.com/gyrbsdl18/222556439520

 

ROC (AUROC), Lift 쉬운 설명

classification 모델을 평가할 때 f1score 가 많이 사용된다. 하지만 모델을 적용했을 때의 성과라던가, 모...

blog.naver.com

 

3. Multiclass Classification

: 범주가 3개 이상일 때

-> One or Nothing

P(y = 0) P(y = 1) P(y = 2)
0.3 0.5 0.2
  확률이 제일 높은 class가 예측값이 됨
(y = 1)

P(y = 1이 아님) 확률이 0.5로 가장 작음
 

 

multiclass일 때의 logistic regression

iris data 활용, one or rest(one or nothing) 옵션을 줄 수 있음

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gdpresent&logNo=221716396894 

 

Logistic Regression(3) [내가 공부한 머신러닝 #13.]

내가 공부한 머신러닝 13 이전에 언급했듯이 여기에서는 Multi Class에 대해서 한 번 봐보겠습니다. 이전...

blog.naver.com