Regression-Model 평가 및 지표 해석

ML

by 30303 2024. 3. 18. 11:02

728x90

Model 평가

동일한 평가기준으로 model의 성능을 평가 해야 함

정성적 지표

회귀 모델에서 정성적인 적합도 판단

평균적으로 예측한 것 대비 분산을 얼마나 축소 시켰는지.

SSE:회귀식에 의해 설명되는 편차

SSR:회귀식에 의해 설명되지 않는 편차

0-1사이의 값을 가지며 1에 가까울수록 좋은 모델(모델에 의해 설명되는 부분이 전체에서 차지하는 비중이 높음)

0.25이상 유의미.

지나치게 높은 경우도 다시 확인해봐야 함

정량적 지표

실제값 대비 얼마나 예측값이 차이가 있는지를 %로 표현

상대적 오차를 추정하는데 주로 사용

절대값이 아닌 제곱을 취해 부포의 영향을 제거

모델 평가 및 해석 순서

Feature selection

Feature의 수가 많아지면 모델 복잡도가 높아짐.

모델 복잡도가 높아지면 bias는 낮아지지만 variance 높아짐 →과적합

완전탐색 - 시간이 너무 많이 걸림

forward selection- 각 feature의 R2를 구한 후 가장 높은 것부터 추가, 정확도의 변화가 없을 때 멈춤

backward elimination- 전체 variables 다 넣고 시작한 후 정확도에 영향을 미치지 않는 불필요한 variable을 삭제, 한번 제거된 것 다시 선택 않음

stepwise selection:위 두가지를 번갈아가며 수행, 최적의 variable subset을 찾을 가능성 높음

penalty term

모델이 에러를 최소화하는 과정에서 feature를 선택하는 방안

model에 불필요한 feature에 penalty를 부여하여 학습하지 못하게 함

에러를 최소화하는 제약조건에서 필요없는 feature의 β(계수)에 페널티를 부여

5000의 penalty term을 부여하면 β는 0에 가까워짐

Regularized model -Ridge

β𝟐에 Penalty Term을 부여하는 방식 = 𝑳𝟐−𝑛𝑜𝑟𝑚 = 𝑳𝟐 Regularization

제곱 오차를 최소화하면서 회귀 계수 β𝟐 을 제한함

Classification- loss function / Decision Tree (0)	2024.03.20
Regularized model-Ridge code (1)	2024.03.19
Regression problem - Loss funtion/ β(계수) 추정법 (0)	2024.03.15
머신러닝으로 접근하는 문제들 (0)	2024.03.15
소프트웨어 2.0시대와 현업에서의 머신러닝 (0)	2024.03.13