303

고정 헤더 영역

글 제목

메뉴 레이어

303

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (144)
    • TIL (101)
    • 아티클 스터디 (7)
    • WIL (16)
    • ML (17)
    • Python (1)
    • BOOK (1)

검색 레이어

303

검색 영역

컨텐츠 검색

ML

  • Clustering- DBSCAN/ HDBCAN

    2024.03.25 by 30303

  • Clustering- K-means

    2024.03.25 by 30303

  • Anomaly detection- Isolation Forest

    2024.03.25 by 30303

  • Anomaly detection-LOF(Local Outlier Factor)

    2024.03.25 by 30303

  • Anomaly detection - 3-Sigma rule& box plot

    2024.03.25 by 30303

  • LightGBM

    2024.03.22 by 30303

  • XGBoost

    2024.03.22 by 30303

  • AdaBoost / Gradient Boosting Machine

    2024.03.22 by 30303

Clustering- DBSCAN/ HDBCAN

Density-Based Spatial Clustering of Applications with Noise - K-means나 Hierarchical Clustering의 경우 군집 간의 거리를 이용한 Clustering 기법 - DBSCAN은 밀도 기반의 기법이며 세밀하게 몰려 있어서 밀도가 높은 부분을 Clustering 하는 기법 - 점 p가 있다고 할 때, 점 p에서 부터 거리 e(epsilon)내에 점이 m(minPls)개 있으면 하나의 군집으로 인식함 - 따라서 e와 m이 Hyperparameter임 K-means와 같이 Cluster의 수를 정하지 않아도 됨 Cluster의 밀도에 따라 Cluster를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도 잘 찾을 수 있음 DBSCAN을 활용하..

ML 2024. 3. 25. 14:38

Clustering- K-means

K-means Clustering은 비지도학습에 속하며 K-means 알고리즘은 데이터를 K개의 군집으로 묶어주는 알고리즘 Step 1: 군집의 개수 (K) 설정 - 데이터를 준비한 뒤 가장 먼저 해야 할 것은 군집의 개수를 결정해야함 (사람이) - K-means 알고리즘의 한계점 중에 하나 - 군집의 개수 설정을 어떻게 하냐에 따라 결과가 크게 달라지며, 터무니 없는 결과가 나올 수 있음 - 군집의 개수를 몇 개로 설정 할 것인가? - Rule of thumb - Elbow Method - 정보 기준 접근법 (Information Criterion Approach) Step 2: 초기 중심점 설정 - K개의 초기 중심점 (Center of Cluster, Centroid)을 설정하는 단계 - K-mea..

ML 2024. 3. 25. 14:21

Anomaly detection- Isolation Forest

Isolation Forest 기본적으로 의사결정나무(Decision Tree) 형태로 표현해 정상 값을 분리하기 위해서는 의사결정나무를 깊숙하게 타고 내려 가야 하고, 반대로 이상치인 경우 의사결정나무 상단부에서 분리할 수 있다는 것을 이용한 기법임 정상보다 이상치의 depth가 낮을 것이라는 가정 Random Forest 처럼 Decision Tree를 앙상블 하듯, Isolation Forest도 마찬가지로 Decision Tree를 앙상블함 Sub-sampling : 비복원 추출하여 Tree에 들어갈 Dataset을 준비함 : Random Forest의 경우 복원 추출을 함 (약 37% 데이터가 뽑히지 않기 때문에 Data Noise에 강건해질 수 있었음) Feature Randomly Selec..

ML 2024. 3. 25. 10:23

Anomaly detection-LOF(Local Outlier Factor)

- the distance between objects p and q : 𝒅(𝒑, 𝒒) : 관측치 p와 q의 거리 - k- distance of an object p : 𝑘 − 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒(𝑝) : 관측치 p와 k번째로 가까운 이웃의 거리 - k- distance neighborhood of an object p : 𝑵𝒌(𝒑) : 관측치 p의 k- distance(p) 보다 가까운 이웃의 집합, 관측치 p를 중심으로 k-distance로 원을 그릴 때 원안에 있는 point 수 높을수록 밀도가 높은 - Reachability distance of an object p w.r.t object o - B는 3-distance와 같으니 A와 B의 Distance는 똑같음 - C는 3-distance보다 작..

ML 2024. 3. 25. 10:10

Anomaly detection - 3-Sigma rule& box plot

이상치 (Outlier) vs 이상(Abnormal) 이상치 (Outlier) → Data Noise (O) 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나, 큰 값 분석하고자 하는 데이터에서 적은 확률로 나타나는 데이터 분석 결과 해석 시 오해를 발생시킬 수 있기 때문에 사전 제거 필요 분석 Domain에 따라 다르지만 대부분 분석 대상이 아님 이상(Abnormal) → Data Noise (X) 문제 해결의 관점으로 바라볼 수 있음 현업의 Domain의 관점에서 보았을 때, 문제 발생 가능성이 높은 데이터 정상적인 범주에 데이터라도 이상으로 정의할 수 있음 일반적으로 자주 발생하지 않는 패턴이 이상일 확률이 높음 따라서, 데이터에 대해 Thresh Hold가 존재함 Anomaly Detecti..

ML 2024. 3. 25. 09:56

LightGBM

LightGBM의 Motivation - 전통적으로 GBM계열의 알고리즘은 모든 Feature에 대해, 모든 Data에 대해 Scan하여 Information Gain을 획득 - 사용하는 Feature와 Data를 줄임 - Gradient based One Side Sampling (GOSS) 적용 - Information Gain을 계산할 때 각각의 Data는 다 다른 Gradient(기울기,중요도)를 갖고 있음 - 그렇다고 하면 Gradient가 큰 Data는 Keep 하고 Gradient가 낮은 Data는 Randomly Drop을 수행 - Exclusive Feature Bundling (EFB) - 대게 0(Zero) 값을 동시에 가지는 Data는 거의 없음 (One-hot encoding) -..

ML 2024. 3. 22. 19:28

XGBoost

XGBoost(eXtreme Gradient Boosting) XGBoost 란? XGBoost는 eXtreme Gradient Boosting의 약자(극한 변화도 부스팅) Boosting 기법을 이용하여 구현한 알고리즘은 Gradient Boosting Machine이 대표적임 - 이 알고리즘은 Computing 적으로 병렬 학습이 지원되도록 구현함 - Regression, Classification 문제를 모두 지원하며, 성능과 자원 효율에 장점이 있음 XGBoost의 장점 - GBM 대비 빠른 수행시간 - 병렬 처리로 학습, 분류 속도가 빠름 - 과적합을 방지하는 Penalty Term 존재 - 지도학습에서 뛰어난 학습 능력을 보임 - Missing Values(결측치)를 내부적으로 처리해줌 An ..

ML 2024. 3. 22. 18:32

AdaBoost / Gradient Boosting Machine

Adaboost 부스팅 계열 -reduce the bias 잘 못 맞춘 데이터 변환(change distribution of training data) AdaBoost = Adaptive + Boosting 10개 중 3개를 miss class -> 엡실론 0.3 계속하여 엡실론 감소 Final Classifier = Strong Classifier Gradient Boosting Machine Classification 뿐만 아니라 Regression 사용 가능 실제값-예측값 잔차를 계속하여 학습 Loss Function overfitting problem Overfitting 방지 1. Subsampling - 복원 추출이 아닌(without replacement) Just sampling 하여 it..

ML 2024. 3. 22. 13:56

추가 정보

인기글

페이징

이전
1 2 3
다음
TISTORY
303 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바