태블로 -데이터 시각화
효과적인 차트를 고르는 법
관계/비교/분포/구성
선 그래프
ex. 유료 구독자 수 변화 추이/ 2022년 대비 2023년 상품 판매량 증가
특징: 시계열 시각화 시 변화량과 트렌드 한 눈에/ 연속적 데이터에 적합(온도, 시간)
특정 값-> 수치로 변경 가능
막대 그래프
ex. 이번 달 가장 많은 항공권이 예약된 해외 지역?/ 퍼널별 전환율을 확인, 어디서 이탈이 발생하는가/ 카테고리별 상품 판매량
특징: 범주형 데이터, 범주 간 차이, 분포
행- 범주 열- 측정값
맵 차트
ex.밤 시간대 택시 이용률 가장 높은 자치구?/성수동 맛집 위치와 분포
특징: 지도를 활용 지리적 위치. 지역별 데이터의 분포 및 비중
-뷰 툴바:지도 확대 축소
-백그라운드 레이어: 투명도 설정
파이차트
ex. 사용자 기기별 앱 다운로드 비율/ 멤버십 등급별 비중
특징: 전체에서 각 부분이 차지하는 상대적 비율/ 구성 비율과 분포/ 변수가 적을때 직관적
트리맵 차트
ex. 상품 카테고리(상위)의 지역별 매출(하위)/ 책의 종류별 지역별 서점 도서 매출
특징:데이터를 계층적으로 표현/ 카테고리별 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현/ 카테고리별 구성 요소 하눈에
도넛 차트
-파이차트 가운데 구멍
-각 부분 크기가 상대적 비율
-대시보드의 KPI 카드로 활용. 가운데에 달성률 표시
히트맵 차트
-하이라이트 테이블
-색상의 그라데이션으로 측정값 비교
영역 차트
-선 아래 영역을 색으로 채워 데이터 영역의 크기 파악
-시간에 따른 데이터 추이
-데이터 변화 및 흐름
스택플랏(stacked plot)
-100%누적 그래프/ 단순 누적 그래프
-상대적 비율을 직관적으로 시각화
-시간에 따른 데이터 변화
-단순 누적그래프: 기준선이 일정하지 않기에 비교가 어려움
일반 호스트와 슈퍼 호스트의 응답시간 비교
이중축, 콤보차트
- 두가지 서로 다른 데이터 집합을 한 번에 비교
- 축에서 서로 다른 단위나 기준을 가지고 있는 경우 한 눈에
평균선/참조선
- 분석 패널에서 평균선 라인, 상수 라인, 참조선을 추가하여 빠른 의사결정을 도움
박스 플랏
- 데이터 분포와 이상치를 시각적으로 파악
파레토 차트(pareto chart)
- 전체 결과의 80%는 전체 인원의 20%에서 일어난다는 마케팅 기법
scatter plot
-상관관계. 지표간 어떤 선형적 관계가 있는 가 상관분석
시계열 예측
- 지수 평활법
- exponential smoothing 예측 모델링
- 과거 데이터 기반 미래 예측
기초 수업
클러스터링 군집화 !
-비지도 학습/ y값이 없는
-성과를 측정할 지표가 없음
-대부분 kmeans 알고리즘 - 클러스터의 수를 미리 지정해야 함 -엘보우 메소드
-그 외 DBscan 알고리즘 - 노이즈 구별할 때 많이 사용 - 클러스터의 수 지정 x
-계층적 알고리즘
-클러스터링: 거리기반 알고리즘이기에 반드시 정규화
-모델은 식별자의 순서도 학습하기에 드롭하기
-지표가 없기에(비지도 학습) compare_model 사용 불가. create_model로 만들고 임의로 학습
-최적의 k를 구하기
-kmeans 군집의 원리 -- 학습하기
-담플젝에는 다양한 알고리즘을 사용해 보세요~ 넵
- 코드 구현~ 데이터 해석 ~ 이론
240226월_TIL (1) | 2024.02.26 |
---|---|
240223금_TIL (0) | 2024.02.23 |
240221수_TIL (0) | 2024.02.21 |
240220화_TIL (0) | 2024.02.20 |
240219월_TIL (0) | 2024.02.19 |