상세 컨텐츠

본문 제목

240221수_TIL

TIL

by 30303 2024. 2. 21. 20:28

본문

728x90

태블로 데이터 연동

라이브/추출 (원본 파일이 큰 경우 후자가 좋음)

 

컬럼 삭제가 불가하기에 컬럼숨기기 진행. 

데이터 유형 변경 bool-> 문자열

 

테이블 병합 방식 

관계: 하나로 병합하지 않고 테이블간 관계 설정. 조인보다 유연하고 동적인 방법

유니온: 테이블 구조가 같은 형태인 경우(ex.23년 10월/23년 11월 판매데이터)

조인: left,inner. 하나의 테이블로 연결

블렌딩: 물리적 병합 없이, 워크시트 화면에 두 테이블을 동시에. 서로 다른 데이터 베이스에서 불러오고 임시로 사용 

 

커넥터 연동 

구글 빅쿼리 

예제 데이터. 

 

기본 트리맵 차트에서 텍스트로 바꾸면 워드 클라우드

 

차원 및 측정 값

상단: 차원 = 측정 기준 또는 분석의 기준 (ex.유저아이디, 상품명)

하단: 측정 값  = 측정하는 값 또는 항목 (ex. 매출, 리텐션, 전환율)

 

연속형-초록색

불연속형-파란색 (하나로 이어지지 않고 각각 구분되는 개별적인 데이터)

 

계산된 필드

새로운 필드 생성 ~ 지표에 활용 (ex.profit/sales= 수익률)

 

매개변수

사용자가 대시보드와 워크시트의 데이터를 필터링하거나 조정

데이터 유형 및 조건 설정하여 매개변수 만들 수


기초학습

 

선형회귀

 

파이캐럿,, 머신러닝에 아주 유용. 

모델 베이스라인을 잡는 정도의 용도로 사용토록. 

 

!pip install pycaret full
#다섯가지 모듈 모두 설치

 

 

session_id 123,444,777 등.. 

 

normalize = True

선형회귀~ 변수 간 상관관계. 

단위가 클수록 y 값에 영향을 많이 끼치게 된다. 따라서 정규화 필요.

모든 수치형 변수가 동일한 범위를 가지도록. 

 

transformation 데이터 변환 ~ 데이터를 정규분포화

머런 모델 - 데이터가 통계적으로 정규분호임을 가정하고 만들어짐. 

데이터가 정규분포화 되어 있어야 모델 성능이 잘 나옵니다.

 

이상치 제거 remove_outliers

 

다중공선성 처리 remove_multicollinearity

 

2024년의 분석가의 미덕.. 직접~ 생각해보고 하도록. 기계야 돌려야 말고... 

해당 스킬로 평균은 뽑을 수 있겠으나 그 후 직접 조절하면서 모델을 고도화. 

 

이상치 제거 시 성능이 떨어진다.? 현재 데이터 외에 다른 데이터 들어왔을때를 생각하면 제거하는 게 낫다. 

본인이 허용가능한 스코어를 정해 놓은 뒤 그 전까지 컬럼 및 이상치를 제거하도록. 

 

선형회귀의 시각화 두가지 ~ 잔차와 에러. 

 

태블로도 잼잇고 기초 수업은 더 잼잇다.. 

내일 강의 더 많이 듣도록 ㅇㅈㅈ~ 

 

 

 

 

 

 

'TIL' 카테고리의 다른 글

240223금_TIL  (0) 2024.02.23
240222목_TIL  (0) 2024.02.22
240220화_TIL  (0) 2024.02.20
240219월_TIL  (0) 2024.02.19
240216금_TIL  (0) 2024.02.16

관련글 더보기