240207수_TIL
프로젝트 2일차..
가설..///
1 총상환원금이 높을 수록 신용등급이 높을 것
2 총상환이자가 높을 수록 신용등급이 높을 것
3 총상환원금/대출금액 (원금상환율)이 높을 수록
4 총상환이자/대출금액 (이자상환율)이 높을 수록
5 최근2년연체횟수가 낮을 수록
6 총 연체금액이 낮을 수록
7연체 계좌 수가 낮을 수록
전처리 안 하고 무작정 때려박은..
이자가 많으면 대출등급이 낮아 고금리로 대출을 하여?
상대적으로 이자가 많나?
튜터님 피드백==> 대출등급 0~7로 라벨링 그 등급간의 차이를 숫자 1로 나타낼 수 있는 것이냐?
대출금액별 이자? 다양하게 살펴봐야 한다.
[ML/DL] 파이썬(python)을 이용한 분류(Classification)하기
머신러닝에서 가장 많이 사용되는 scikits learn을 통해 분류 모델에 대한 학습을 해보겠다. 데이터 셋과 모델링/ train과 test를 나누는 라이브러리를 가져온다. 여기서 사용할 모델은 DecisionTreeClassifi
continuous-development.tistory.com
분류!..
전처리
주택소유상태 any row 없애기
Unknown -1로
데이터 스케일링 방법
https://dacon.io/codeshare/4526
sklearn으로 데이터 스케일링(Data Scaling)하는 5가지 방법🔥
dacon.io
사분위수 날리기..
피드백==>
전체 데이터의 20%를 날리는 것 신중하셈.
이상치를 살펴보고
등급 인코딩
===>
얘들이 ㄹㅇ 이게 맞냐.. 아니다..
기존 대출 등급 변수를 그대로 두고 학습을 통해 새로운 x가 들어왔을 때 맞추는게 목적
대출등급이 타겟. 새로운 x변수가 들어왔을 때 정확히 분류하는 것이 모델의 목적
+논리적 결과 해석
여러 x변수와의 논리적 해석이 어떻게 되는지
범주형 변수의 분포 살피기.
헷갈린 부분: 대출 등급 심사 후 대출 진행 그 후의 상환내역들인지
==> 아니다. 반영된 내용으로 나온 데이터임.
데이터를 살피며 느낀바를 질문하셈.
x변수 간의 관계도 면밀히.
y를 제외하고 범주,수치형 변수간의 (상관)관계를 보거나 시각화.
가설: 분석 전 상식 선에서 알 수 있는
인사이트: 분석을 해야만 알 수 있는 새로운 사실
되도록 안정적인 모델 validation
shap value -- 모델링 후 y변수에 가장 영향이 큰 인자를 찾아내는
근로기간 unknown의 경우 어떻게 처리할 지 / 제거 or 보관 how
해당 값과 근로기간 및 여타 변수의 관계를 살피고 유추하는 방법도. 가장 합당한 방법을 찾기
ex. 소득수준과 유사하다면 소득수준을 근로기간에 대한 타겟으로 세워서 서브모델링.
14일 미팅
16일까지는 모델링 인사이트 해석 완성
eda 전처리 많이 많이 깊게 깊게..
이렇게 모델링해서 인사이트는 이겁니다 짜잔 말고 생각을 고민을 eda를 결과해석을 여러방면으로 하셈
azarzar~