Model 평가
동일한 평가기준으로 model의 성능을 평가 해야 함
정성적 지표
회귀 모델에서 정성적인 적합도 판단
평균적으로 예측한 것 대비 분산을 얼마나 축소 시켰는지.
SSE:회귀식에 의해 설명되는 편차
SSR:회귀식에 의해 설명되지 않는 편차
0-1사이의 값을 가지며 1에 가까울수록 좋은 모델(모델에 의해 설명되는 부분이 전체에서 차지하는 비중이 높음)
0.25이상 유의미.
지나치게 높은 경우도 다시 확인해봐야 함
정량적 지표
실제값 대비 얼마나 예측값이 차이가 있는지를 %로 표현
상대적 오차를 추정하는데 주로 사용
절대값이 아닌 제곱을 취해 부포의 영향을 제거
모델 평가 및 해석 순서
Feature selection
Feature의 수가 많아지면 모델 복잡도가 높아짐.
모델 복잡도가 높아지면 bias는 낮아지지만 variance 높아짐 →과적합
완전탐색 - 시간이 너무 많이 걸림
forward selection- 각 feature의 R2를 구한 후 가장 높은 것부터 추가, 정확도의 변화가 없을 때 멈춤
backward elimination- 전체 variables 다 넣고 시작한 후 정확도에 영향을 미치지 않는 불필요한 variable을 삭제, 한번 제거된 것 다시 선택 않음
stepwise selection:위 두가지를 번갈아가며 수행, 최적의 variable subset을 찾을 가능성 높음
penalty term
모델이 에러를 최소화하는 과정에서 feature를 선택하는 방안
model에 불필요한 feature에 penalty를 부여하여 학습하지 못하게 함
에러를 최소화하는 제약조건에서 필요없는 feature의 β(계수)에 페널티를 부여
5000의 penalty term을 부여하면 β는 0에 가까워짐
Regularized model -Ridge
β𝟐에 Penalty Term을 부여하는 방식 = 𝑳𝟐−𝑛𝑜𝑟𝑚 = 𝑳𝟐 Regularization
제곱 오차를 최소화하면서 회귀 계수 β𝟐 을 제한함
Classification- loss function / Decision Tree (0) | 2024.03.20 |
---|---|
Regularized model-Ridge code (1) | 2024.03.19 |
Regression problem - Loss funtion/ β(계수) 추정법 (0) | 2024.03.15 |
머신러닝으로 접근하는 문제들 (0) | 2024.03.15 |
소프트웨어 2.0시대와 현업에서의 머신러닝 (0) | 2024.03.13 |