상세 컨텐츠

본문 제목

240222목_TIL

TIL

by 30303 2024. 2. 22. 22:43

본문

728x90

태블로 -데이터 시각화

 

효과적인 차트를 고르는 법

관계/비교/분포/구성

 

선 그래프

ex. 유료 구독자 수 변화 추이/ 2022년 대비 2023년 상품 판매량 증가

특징: 시계열 시각화 시 변화량과 트렌드 한 눈에/ 연속적 데이터에 적합(온도, 시간)

특정 값-> 수치로 변경 가능

 

막대 그래프 

ex. 이번 달 가장 많은 항공권이 예약된 해외 지역?/ 퍼널별 전환율을 확인, 어디서 이탈이 발생하는가/ 카테고리별 상품 판매량

특징: 범주형 데이터, 범주 간 차이, 분포

행- 범주 열- 측정값

 

맵 차트

ex.밤 시간대 택시 이용률 가장 높은 자치구?/성수동 맛집 위치와 분포

특징: 지도를 활용 지리적 위치. 지역별 데이터의 분포 및 비중

-뷰 툴바:지도 확대 축소

-백그라운드 레이어: 투명도 설정

 

파이차트

ex. 사용자 기기별 앱 다운로드 비율/ 멤버십 등급별 비중

특징: 전체에서 각 부분이 차지하는 상대적 비율/ 구성 비율과 분포/ 변수가 적을때 직관적

 

트리맵 차트

ex. 상품 카테고리(상위)의 지역별 매출(하위)/ 책의 종류별 지역별 서점 도서 매출

특징:데이터를 계층적으로 표현/ 카테고리별 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현/ 카테고리별 구성 요소 하눈에

 

도넛 차트

-파이차트 가운데 구멍

-각 부분 크기가 상대적 비율

-대시보드의 KPI 카드로 활용. 가운데에 달성률 표시

 

히트맵 차트

-하이라이트 테이블

-색상의 그라데이션으로 측정값 비교

 

영역 차트

-선 아래 영역을 색으로 채워 데이터 영역의 크기 파악

-시간에 따른 데이터 추이

-데이터 변화 및 흐름

 

스택플랏(stacked plot)

-100%누적 그래프/ 단순 누적 그래프

-상대적 비율을 직관적으로 시각화

-시간에 따른 데이터 변화

-단순 누적그래프: 기준선이 일정하지 않기에 비교가 어려움

일반 호스트와 슈퍼 호스트의 응답시간 비교

 

이중축, 콤보차트

- 두가지 서로 다른 데이터 집합을 한 번에 비교

- 축에서 서로 다른 단위나 기준을 가지고 있는 경우 한 눈에

 

평균선/참조선

- 분석 패널에서 평균선 라인, 상수 라인, 참조선을 추가하여 빠른 의사결정을 도움

 

박스 플랏

- 데이터 분포와 이상치를 시각적으로 파악

 

파레토 차트(pareto chart)

- 전체 결과의 80%는 전체 인원의 20%에서 일어난다는 마케팅 기법

 

scatter plot

-상관관계. 지표간 어떤 선형적 관계가 있는 가 상관분석

 

시계열 예측

- 지수 평활법

- exponential smoothing 예측 모델링

- 과거 데이터 기반 미래 예측


기초 수업

클러스터링 군집화 !

-비지도 학습/ y값이 없는

-성과를 측정할 지표가 없음

-대부분 kmeans 알고리즘 - 클러스터의 수를 미리 지정해야 함 -엘보우 메소드

-그 외 DBscan 알고리즘 - 노이즈 구별할 때 많이 사용 - 클러스터의 수 지정 x

-계층적 알고리즘

-클러스터링: 거리기반 알고리즘이기에 반드시 정규화

-모델은 식별자의 순서도 학습하기에 드롭하기

-지표가 없기에(비지도 학습) compare_model 사용 불가. create_model로 만들고 임의로 학습

-최적의 k를 구하기

-kmeans 군집의 원리 -- 학습하기

 

 

-담플젝에는 다양한 알고리즘을 사용해 보세요~ 넵

- 코드 구현~ 데이터 해석 ~ 이론

 

 

 

'TIL' 카테고리의 다른 글

240226월_TIL  (1) 2024.02.26
240223금_TIL  (0) 2024.02.23
240221수_TIL  (0) 2024.02.21
240220화_TIL  (0) 2024.02.20
240219월_TIL  (0) 2024.02.19

관련글 더보기