Classification- loss function / Decision Tree

ML

by 30303 2024. 3. 20. 08:33

728x90

분류

옳고 그름 2가지. (클래스는 2개 이상일 수 있음, 그러나 크기의 차이는 없는)

불순도 - 낮을수록 좋은

지니계수- 순도의 파악 척도, 확률에 의한 판단.

지니계수

k:클래스, 클래스 k 에 몇개가 있는가.

지니계수 계산식

k1이 0개가 된다면, 불순도는 0이되는

엔트로피

n 갯수

Decision tree

overcast의 경우 불순도 0, 순도 100인 상황. 더이상 split하지 않음

루트-뿌리마디

터미널- 더이상 split되지 않는 마지막 끝마디

끝마디가 많아지면, 모델 복잡도가 무한으로 늘어날 수 있다. 정확도는 높아지나, 과적합의 문제.

반으로 나눈후 지니계수 감소.

나누기 전과 나눈 후의 차이: information gain(이전에 비해 불순도가 얼마나 하락했는지를 나타내는 지표)

- 이것이 가장 큰 지점을 먼저 split

Decision Tree split 원리

- First Step은 불순도가 가장 낮은 Feature와 포인트를 찾음

- 이 포인트가 Root Node가 되는 것

- 그 후 Information gain이 가장 큰 포인트를 찾아서 Split을 진행함

depth 높아질수록 과적합 적절한 depth를 찾아야.

pruning

depth가 5를 넘지 않도록

정확도를 줄이더라고 마지막에는 rule extraction을 하는 것을 추천, 강력한 해석력을 지니기에

Classification- Random Forest (0)	2024.03.20
Classification- 모델 평가 및 지표 해석/ 앙상블 정의 (0)	2024.03.20
Regularized model-Ridge code (1)	2024.03.19
Regression-Model 평가 및 지표 해석 (0)	2024.03.18
Regression problem - Loss funtion/ β(계수) 추정법 (0)	2024.03.15