상세 컨텐츠

본문 제목

Regression-Model 평가 및 지표 해석

ML

by 30303 2024. 3. 18. 11:02

본문

728x90

Model 평가

 

동일한 평가기준으로 model의 성능을 평가 해야 함

정성적 지표

회귀 모델에서 정성적인 적합도 판단

평균적으로 예측한 것 대비 분산을 얼마나 축소 시켰는지. 

SSE:회귀식에 의해 설명되는 편차

SSR:회귀식에 의해 설명되지 않는 편차

0-1사이의 값을 가지며 1에 가까울수록 좋은 모델(모델에 의해 설명되는 부분이 전체에서 차지하는 비중이 높음)

 

0.25이상 유의미. 

지나치게 높은 경우도 다시 확인해봐야 함

 

 

정량적 지표

실제값 대비 얼마나 예측값이 차이가 있는지를 %로 표현

상대적 오차를 추정하는데 주로 사용

절대값이 아닌 제곱을 취해 부포의 영향을 제거

 

모델 평가 및 해석 순서


Feature selection

 

Feature의 수가 많아지면 모델 복잡도가 높아짐

모델 복잡도가 높아지면 bias는 낮아지지만 variance 높아짐 →과적합

 

완전탐색 - 시간이 너무 많이 걸림

forward selection- 각 feature의 R2를 구한 후 가장 높은 것부터 추가, 정확도의 변화가 없을 때 멈춤

backward elimination- 전체 variables 다 넣고 시작한 후 정확도에 영향을 미치지 않는 불필요한 variable을 삭제, 한번 제거된 것 다시 선택 않음

stepwise selection:위 두가지를 번갈아가며 수행, 최적의 variable subset을 찾을 가능성 높음


penalty term

 

모델이 에러를 최소화하는 과정에서 feature를 선택하는 방안

model에 불필요한 feature에 penalty를 부여하여 학습하지 못하게 함

에러를 최소화하는 제약조건에서 필요없는 feature의 β(계수)에 페널티를 부여

 

5000의 penalty term을 부여하면 β는 0에 가까워짐

 


Regularized model -Ridge

 β𝟐에 Penalty Term을 부여하는 방식 = 𝑳𝟐−𝑛𝑜𝑟𝑚 = 𝑳𝟐 Regularization

제곱 오차를 최소화하면서 회귀 계수 β𝟐 을 제한함

관련글 더보기