태블로 데이터 연동
라이브/추출 (원본 파일이 큰 경우 후자가 좋음)
컬럼 삭제가 불가하기에 컬럼숨기기 진행.
데이터 유형 변경 bool-> 문자열
테이블 병합 방식
관계: 하나로 병합하지 않고 테이블간 관계 설정. 조인보다 유연하고 동적인 방법
유니온: 테이블 구조가 같은 형태인 경우(ex.23년 10월/23년 11월 판매데이터)
조인: left,inner. 하나의 테이블로 연결
블렌딩: 물리적 병합 없이, 워크시트 화면에 두 테이블을 동시에. 서로 다른 데이터 베이스에서 불러오고 임시로 사용
커넥터 연동
구글 빅쿼리
예제 데이터.
기본 트리맵 차트에서 텍스트로 바꾸면 워드 클라우드
차원 및 측정 값
상단: 차원 = 측정 기준 또는 분석의 기준 (ex.유저아이디, 상품명)
하단: 측정 값 = 측정하는 값 또는 항목 (ex. 매출, 리텐션, 전환율)
연속형-초록색
불연속형-파란색 (하나로 이어지지 않고 각각 구분되는 개별적인 데이터)
계산된 필드
새로운 필드 생성 ~ 지표에 활용 (ex.profit/sales= 수익률)
매개변수
사용자가 대시보드와 워크시트의 데이터를 필터링하거나 조정
데이터 유형 및 조건 설정하여 매개변수 만들 수
기초학습
선형회귀
파이캐럿,, 머신러닝에 아주 유용.
모델 베이스라인을 잡는 정도의 용도로 사용토록.
!pip install pycaret full
#다섯가지 모듈 모두 설치
session_id 123,444,777 등..
normalize = True
선형회귀~ 변수 간 상관관계.
단위가 클수록 y 값에 영향을 많이 끼치게 된다. 따라서 정규화 필요.
모든 수치형 변수가 동일한 범위를 가지도록.
transformation 데이터 변환 ~ 데이터를 정규분포화
머런 모델 - 데이터가 통계적으로 정규분호임을 가정하고 만들어짐.
데이터가 정규분포화 되어 있어야 모델 성능이 잘 나옵니다.
이상치 제거 remove_outliers
다중공선성 처리 remove_multicollinearity
2024년의 분석가의 미덕.. 직접~ 생각해보고 하도록. 기계야 돌려야 말고...
해당 스킬로 평균은 뽑을 수 있겠으나 그 후 직접 조절하면서 모델을 고도화.
이상치 제거 시 성능이 떨어진다.? 현재 데이터 외에 다른 데이터 들어왔을때를 생각하면 제거하는 게 낫다.
본인이 허용가능한 스코어를 정해 놓은 뒤 그 전까지 컬럼 및 이상치를 제거하도록.
선형회귀의 시각화 두가지 ~ 잔차와 에러.
태블로도 잼잇고 기초 수업은 더 잼잇다..
내일 강의 더 많이 듣도록 ㅇㅈㅈ~
240223금_TIL (0) | 2024.02.23 |
---|---|
240222목_TIL (0) | 2024.02.22 |
240220화_TIL (0) | 2024.02.20 |
240219월_TIL (0) | 2024.02.19 |
240216금_TIL (0) | 2024.02.16 |