상세 컨텐츠

본문 제목

Classification- loss function / Decision Tree

ML

by 30303 2024. 3. 20. 08:33

본문

728x90

분류

옳고 그름 2가지. (클래스는 2개 이상일 수 있음, 그러나 크기의 차이는 없는)

 

불순도 - 낮을수록 좋은

지니계수- 순도의 파악 척도, 확률에 의한 판단.

 

지니계수

k:클래스, 클래스 k 에 몇개가 있는가. 

지니계수 계산식

 

k1이 0개가 된다면, 불순도는 0이되는

 

 

엔트로피

n 갯수


Decision tree

overcast의 경우 불순도 0, 순도 100인 상황. 더이상 split하지 않음

 

루트-뿌리마디

터미널- 더이상 split되지 않는 마지막 끝마디

끝마디가 많아지면, 모델 복잡도가 무한으로 늘어날 수 있다. 정확도는 높아지나, 과적합의 문제. 

 

반으로 나눈후 지니계수 감소. 

나누기 전과 나눈 후의 차이: information gain(이전에 비해 불순도가 얼마나 하락했는지를 나타내는 지표)

- 이것이 가장 큰 지점을 먼저 split

 

Decision Tree split 원리

- First Step은 불순도가 가장 낮은 Feature와 포인트를 찾음

- 이 포인트가 Root Node가 되는 것

- 그 후 Information gain이 가장 큰 포인트를 찾아서 Split을 진행함

 

depth 높아질수록 과적합 적절한 depth를 찾아야.

 

pruning

depth가 5를 넘지 않도록

 

 

정확도를 줄이더라고 마지막에는 rule extraction을 하는 것을 추천, 강력한 해석력을 지니기에

관련글 더보기