TIL

240214수_TIL

30303 2024. 2. 14. 22:00
728x90

https://itecnote.com/tecnote/python-modulenotfounderror-no-module-named-imblearn/

 

ModuleNotFoundError: No module named ‘imblearn’ – iTecNote

I tried running the following code: from imblearn import under_sampling, over_sampling from imblearn.over_sampling import SMOTE sm = SMOTE(random_state=12, ratio = 1.0) x_SMOTE, y_SMOTE = sm.fit_sample(X, y) which gives me the error message: ModuleNotFound

itecnote.com

 

https://www.freecodecamp.org/korean/news/paisseon-list-remove-paisseon-baeyeoleseo-hangmogeul-jegeohaneun-bangbeob/

 

파이썬 List .remove() - 파이썬 리스트에서 항목을 제거하는 방법

이 글에서는 파이썬 내장 함수 remove() list 메소드를 사용하는 법을 배우게 될 것입니다. 마지막에 이르면 파이썬에서 리스트 안에 항목을 제거하기 위해 remove()를 사용하는 법을 알게 될 것입니

www.freecodecamp.org

 

등급별 차이~ 통계 보기~ 

이상치를 날리면 맨끝에 다다다다다 있다.. 

 

파생변수 추가해도 점수변동이 안된다~ 오류의 연속~ 

 


기초 수업 ~ 

저도 어렵습니다 ~ 여러분들 어려운거 하시는거 마자용~ : 튜터님 명대사 ~

 

회귀 분류 군집 연관분석 등등 \분류 데이터 많다고..

 

앙상블 계열 ~ 그다음 랜덤포레스트 많이 사용

 

분류모델 예 

로지스틱 회귀 - 이진분류 0과 1

결정트리 / 나무치기 y or n

서포트벡터머신

 

xgboost / lightGBM / catBoost / gradient boosting

커널 경계 부여? 분류 면접에서 많이 물어보는 모델 ~ 블로그에 나중에 따로 정리해라~

xgboost 논문 수식 ~ 면접에서 수식 많이 물어본다고..~ (빠른 알고리즘, 과적합 방지)

 

- 분석 과정

import한 모듈 가장 위에 올리는 게 깔끔.

head와 tail을 보기 - 다 제대로 들어와있는지

info를 찍어서 데이터 셋 정보를 봄

non-null count 확인

dtype 확인

 

string을 int 로 변환 

data.isnull()

 

none 값을 어떻게 해결할지가 기초이고 중요~에 따라 전처리 시각화 모두 달라짐~에 대한 로직 많이 고민해야

 

y값(타겟)에 대한 분석 

 

분류~ 비대칭, 불균형 데이터 셋이 많음. ex. 신용카드 fraud 데이터 셋

타겟 데이터가 얼마나 불균등한지 ~ 오차가 날 것 같다면 이것을 어떻게 할지~를 다뤄야 ~ smote data generation 사용

데이터가 1억개 이상이면 줄여도 괜찮으나 만개정도인 경우, 적은 데이터를 다른 데이터만큼 늘려주기

 

accuracy recall precison / 각 카테고리별로 보는 것이 정석

 

apply 일괄 적용 함수

d+ 숫자형만 찾아라~ 많이 쓰임

strip

split

expand~ 펼치기

 

범주형 ~ 명목:원핫인코딩 순서:라벨링?

원핫 인코딩의 문제점 : unique 값이 많다면 10개 이상, 데이터 부정확해짐 ~ 차원의 저주.?

-데이터 패턴을 보고 비슷한 것 묶어주어라~ 상관관계 등

 

get dummies 유용

 

대출등급/ 범주형 데이터이나, 높이가 있음. 

대출목적/ 명목형

 

fit transform ~ 인코더에 라벨을 어떻게 할 지 알려줌. 

 

 

.transform 원래 값으로 다시 반환

 

axis=1 컬럼 기준으로 빼줘라~

 

과적합 방지 ~ train test 데이터 셋 나누기

 

혼동행렬~

정확도 정밀도 f1score 튜터님:멋지지 않나여? 90프로는 되어야 신뢰가 된다~ 

 

특성 중요도: feature importances

 

 


프로젝트 튜터링

 

근로기간~과 연관소득의 상관성

 

오버샘플링~ 증감에 주의

 

히트맵 가로축 true 값 확인; 등급별 각각 얼마나 맞췄는지 총합

 

https://aws.amazon.com/ko/what-is/hyperparameter-tuning/

 

하이퍼파라미터 튜닝이란 무엇인가요?- 하이퍼파라미터 튜닝 방법 설명 - AWS

하이퍼파라미터는 데이터 과학자가 기계 학습 모델 훈련을 관리하는 데 사용하는 외부 구성 변수입니다. 때때로 모델 하이퍼파라미터라고 부르며, 하이퍼파라미터는 모델을 훈련하기 전에 수

aws.amazon.com

https://losskatsu.github.io/machine-learning/cross-validation/#%EC%B0%B8%EA%B3%A0%EB%A7%81%ED%81%AC

 

[머신러닝] 크로스 밸리데이션(cross validation, 교차 검증)의 개념, 의미

[머신러닝] 크로스 밸리데이션(cross validation, 교차 검증)의 개념, 의미

losskatsu.github.io

https://wooono.tistory.com/105

 

[ML] 교차검증 (CV, Cross Validation) 이란?

교차 검증이란? 보통은 train set 으로 모델을 훈련, test set으로 모델을 검증한다. 여기에는 한 가지 약점이 존재한다. 고정된 test set을 통해 모델의 성능을 검증하고 수정하는 과정을 반복하면, 결

wooono.tistory.com

 

 

과적합 될 경우 test 데이터 셋에서 성능이 떨어질 수 있다 ~ 화긴

https://opentutorials.org/module/3653/22071

 

Bias and Variance (편향과 분산) - 한 페이지 머신러닝

편향? 분산? 머신러닝과 무슨 상관인가 지도학습(Supervised Learning)에 대해서 이야기를 할 때는 사람이 정해준 정답이 있고, 컴퓨터가 그 정답을 잘 맞추는 방향으로 훈련(training)을 시킵니다.  

opentutorials.org

 

모델의 안정성~ 

 

논리적 해석~ 

 

대출등급 외 x변수간의 관계~ 에서 어떤 인사이트?

 

shap value /feature importance 종합적으로 어떤 변수가 영향을 많이 미치는지

 

100을 했으면 그만큼 보여줘라, 80만 보여주면 80만 한 줄 안다고

 

피피티 ~ 이런 단계를 거쳐 이런 흐름으로 왔다~ 이런 인사이트를 얻었고 ~ 결과물에 대한 한계와 보완해야 할 부분은 ~ 그럼에도 이뤄낼 수 있었던 것은 ~ 참고 장표; 여타 모델 성능 

 

평가기준 1성능2논리적해석 및 접근방법 3 전처리 - 어떻게, 여러방법을 시도 했는가

 

 

 


내일 할 일

근로기간 unknown 대치 

대출기간 인코딩 다시

대출목적 상관계수 확인 & 인코딩 다시

shap value에 데이터 넣어보기