분류
옳고 그름 2가지. (클래스는 2개 이상일 수 있음, 그러나 크기의 차이는 없는)
불순도 - 낮을수록 좋은
지니계수- 순도의 파악 척도, 확률에 의한 판단.
지니계수
k:클래스, 클래스 k 에 몇개가 있는가.
지니계수 계산식
k1이 0개가 된다면, 불순도는 0이되는
엔트로피
n 갯수
Decision tree
overcast의 경우 불순도 0, 순도 100인 상황. 더이상 split하지 않음
루트-뿌리마디
터미널- 더이상 split되지 않는 마지막 끝마디
끝마디가 많아지면, 모델 복잡도가 무한으로 늘어날 수 있다. 정확도는 높아지나, 과적합의 문제.
반으로 나눈후 지니계수 감소.
나누기 전과 나눈 후의 차이: information gain(이전에 비해 불순도가 얼마나 하락했는지를 나타내는 지표)
- 이것이 가장 큰 지점을 먼저 split
Decision Tree split 원리
- First Step은 불순도가 가장 낮은 Feature와 포인트를 찾음
- 이 포인트가 Root Node가 되는 것
- 그 후 Information gain이 가장 큰 포인트를 찾아서 Split을 진행함
depth 높아질수록 과적합 적절한 depth를 찾아야.
pruning
depth가 5를 넘지 않도록
정확도를 줄이더라고 마지막에는 rule extraction을 하는 것을 추천, 강력한 해석력을 지니기에
Classification- Random Forest (0) | 2024.03.20 |
---|---|
Classification- 모델 평가 및 지표 해석/ 앙상블 정의 (0) | 2024.03.20 |
Regularized model-Ridge code (1) | 2024.03.19 |
Regression-Model 평가 및 지표 해석 (0) | 2024.03.18 |
Regression problem - Loss funtion/ β(계수) 추정법 (0) | 2024.03.15 |