상세 컨텐츠

본문 제목

Clustering- DBSCAN/ HDBCAN

ML

by 30303 2024. 3. 25. 14:38

본문

728x90

Density-Based Spatial Clustering of Applications with Noise

 

- K-means나 Hierarchical Clustering의 경우 군집 간의 거리를 이용한 Clustering 기법

- DBSCAN은 밀도 기반의 기법이며 세밀하게 몰려 있어서 밀도가 높은 부분을 Clustering 하는 기법

 

- 점 p가 있다고 할 때, 점 p에서 부터 거리 e(epsilon)내에 점이 m(minPls)개 있으면 하나의 군집으로 인식함

- 따라서 e와 m이 Hyperparameter임

 

 


K-means와 같이 Cluster의 수를 정하지 않아도 됨

Cluster의 밀도에 따라 Cluster를 서로 연결하기 때문에 기하학적인 모양을 갖는 군집도 잘 찾을 수 있음

 

DBSCAN을 활용하여 이상치를 발견할 수 있음

 DBSCAN은 Cluster 결과가 이상치에 영향을 받지 않음

다양한 모양의 Cluster 패턴도 잘 잡아 낼 수 있음

 구현이 비교적 쉬움

 고차원 데이터 대해서 잘 작동하지 않음

-Sparse Data에 대해 결과가 좋지 못함


[DBSCAN Parameters]

  - Packge : https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

 

  - eps : 이웃을 판단하는 거리

 

  - metric : 거리를 계산할 때 사용하는 방법

    - default : euclidean

  - min_samples : eps안에 적어도 몇개 들어와야 하는지 이웃의 숫자

 


Hierarchical Density-Based Spatial

Clustering of Applications with Noise

 

- DBSCAN은 Local density에 대한 정보를 반영해 줄 수 없으며 Data들의 계층적 구조를 반영한 Clustering이 불가능함

- HDBSCAN의 경우 더 이상 epsilon(e)이 필요하지 않음

'ML' 카테고리의 다른 글

Clustering- K-means  (0) 2024.03.25
Anomaly detection- Isolation Forest  (0) 2024.03.25
Anomaly detection-LOF(Local Outlier Factor)  (0) 2024.03.25
Anomaly detection - 3-Sigma rule& box plot  (0) 2024.03.25
LightGBM  (0) 2024.03.22

관련글 더보기