240214수_TIL
https://itecnote.com/tecnote/python-modulenotfounderror-no-module-named-imblearn/
ModuleNotFoundError: No module named ‘imblearn’ – iTecNote
I tried running the following code: from imblearn import under_sampling, over_sampling from imblearn.over_sampling import SMOTE sm = SMOTE(random_state=12, ratio = 1.0) x_SMOTE, y_SMOTE = sm.fit_sample(X, y) which gives me the error message: ModuleNotFound
itecnote.com
파이썬 List .remove() - 파이썬 리스트에서 항목을 제거하는 방법
이 글에서는 파이썬 내장 함수 remove() list 메소드를 사용하는 법을 배우게 될 것입니다. 마지막에 이르면 파이썬에서 리스트 안에 항목을 제거하기 위해 remove()를 사용하는 법을 알게 될 것입니
www.freecodecamp.org
등급별 차이~ 통계 보기~
이상치를 날리면 맨끝에 다다다다다 있다..
파생변수 추가해도 점수변동이 안된다~ 오류의 연속~
기초 수업 ~
저도 어렵습니다 ~ 여러분들 어려운거 하시는거 마자용~ : 튜터님 명대사 ~
회귀 분류 군집 연관분석 등등 \분류 데이터 많다고..
앙상블 계열 ~ 그다음 랜덤포레스트 많이 사용
분류모델 예
로지스틱 회귀 - 이진분류 0과 1
결정트리 / 나무치기 y or n
서포트벡터머신
xgboost / lightGBM / catBoost / gradient boosting
커널 경계 부여? 분류 면접에서 많이 물어보는 모델 ~ 블로그에 나중에 따로 정리해라~
xgboost 논문 수식 ~ 면접에서 수식 많이 물어본다고..~ (빠른 알고리즘, 과적합 방지)
- 분석 과정
import한 모듈 가장 위에 올리는 게 깔끔.
head와 tail을 보기 - 다 제대로 들어와있는지
info를 찍어서 데이터 셋 정보를 봄
non-null count 확인
dtype 확인
string을 int 로 변환
data.isnull()
none 값을 어떻게 해결할지가 기초이고 중요~에 따라 전처리 시각화 모두 달라짐~에 대한 로직 많이 고민해야
y값(타겟)에 대한 분석
분류~ 비대칭, 불균형 데이터 셋이 많음. ex. 신용카드 fraud 데이터 셋
타겟 데이터가 얼마나 불균등한지 ~ 오차가 날 것 같다면 이것을 어떻게 할지~를 다뤄야 ~ smote data generation 사용
데이터가 1억개 이상이면 줄여도 괜찮으나 만개정도인 경우, 적은 데이터를 다른 데이터만큼 늘려주기
accuracy recall precison / 각 카테고리별로 보는 것이 정석
apply 일괄 적용 함수
d+ 숫자형만 찾아라~ 많이 쓰임
strip
split
expand~ 펼치기
범주형 ~ 명목:원핫인코딩 순서:라벨링?
원핫 인코딩의 문제점 : unique 값이 많다면 10개 이상, 데이터 부정확해짐 ~ 차원의 저주.?
-데이터 패턴을 보고 비슷한 것 묶어주어라~ 상관관계 등
get dummies 유용
대출등급/ 범주형 데이터이나, 높이가 있음.
대출목적/ 명목형
fit transform ~ 인코더에 라벨을 어떻게 할 지 알려줌.
.transform 원래 값으로 다시 반환
axis=1 컬럼 기준으로 빼줘라~
과적합 방지 ~ train test 데이터 셋 나누기
혼동행렬~
정확도 정밀도 f1score 튜터님:멋지지 않나여? 90프로는 되어야 신뢰가 된다~
특성 중요도: feature importances
프로젝트 튜터링
근로기간~과 연관소득의 상관성
오버샘플링~ 증감에 주의
히트맵 가로축 true 값 확인; 등급별 각각 얼마나 맞췄는지 총합
https://aws.amazon.com/ko/what-is/hyperparameter-tuning/
하이퍼파라미터 튜닝이란 무엇인가요?- 하이퍼파라미터 튜닝 방법 설명 - AWS
하이퍼파라미터는 데이터 과학자가 기계 학습 모델 훈련을 관리하는 데 사용하는 외부 구성 변수입니다. 때때로 모델 하이퍼파라미터라고 부르며, 하이퍼파라미터는 모델을 훈련하기 전에 수
aws.amazon.com
https://losskatsu.github.io/machine-learning/cross-validation/#%EC%B0%B8%EA%B3%A0%EB%A7%81%ED%81%AC
[머신러닝] 크로스 밸리데이션(cross validation, 교차 검증)의 개념, 의미
[머신러닝] 크로스 밸리데이션(cross validation, 교차 검증)의 개념, 의미
losskatsu.github.io
https://wooono.tistory.com/105
[ML] 교차검증 (CV, Cross Validation) 이란?
교차 검증이란? 보통은 train set 으로 모델을 훈련, test set으로 모델을 검증한다. 여기에는 한 가지 약점이 존재한다. 고정된 test set을 통해 모델의 성능을 검증하고 수정하는 과정을 반복하면, 결
wooono.tistory.com
과적합 될 경우 test 데이터 셋에서 성능이 떨어질 수 있다 ~ 화긴
https://opentutorials.org/module/3653/22071
Bias and Variance (편향과 분산) - 한 페이지 머신러닝
편향? 분산? 머신러닝과 무슨 상관인가 지도학습(Supervised Learning)에 대해서 이야기를 할 때는 사람이 정해준 정답이 있고, 컴퓨터가 그 정답을 잘 맞추는 방향으로 훈련(training)을 시킵니다.
opentutorials.org
모델의 안정성~
논리적 해석~
대출등급 외 x변수간의 관계~ 에서 어떤 인사이트?
shap value /feature importance 종합적으로 어떤 변수가 영향을 많이 미치는지
100을 했으면 그만큼 보여줘라, 80만 보여주면 80만 한 줄 안다고
피피티 ~ 이런 단계를 거쳐 이런 흐름으로 왔다~ 이런 인사이트를 얻었고 ~ 결과물에 대한 한계와 보완해야 할 부분은 ~ 그럼에도 이뤄낼 수 있었던 것은 ~ 참고 장표; 여타 모델 성능
평가기준 1성능2논리적해석 및 접근방법 3 전처리 - 어떻게, 여러방법을 시도 했는가
내일 할 일
근로기간 unknown 대치
대출기간 인코딩 다시
대출목적 상관계수 확인 & 인코딩 다시
shap value에 데이터 넣어보기