240119금_TIL
챕터3 발제:
발제별 그대로 진행해주면 좋겟다.
커리큘럼을 그대로 진행. 시간이 남으면 +a
통계학 기초
목적을 가지고 학습해라
학습 목적과 목표대로 가고 있느냐.
설득을 위해 데이터 준비.
전처리. 시각화.
라이브러리 기초 잘 배우기.
1/19금 ~화 통계학 기초 1~15강 5시간
1/24-1/26 데이터 전처리. 시각화 1,2,3,4주차.
알고리즘 코드카타
정수 n이 주어질 때, n이하의 짝수를 모두 더한 값을 return 하도록 solution 함수를 작성해주세요.
def solution(n):
answer = 0
for i in range(n):
if n%2==0:
answer+=i
return answer
def solution(n):
answer = 0
for i in range(1,n, 2):
answer+=i
return answer
어찌 더하는 구조인지는 알겟으나 파이썬..까먹어서 .. 모르겠다...
강의 더 듣고 풀어야겟삼.
sql 코드카타
문제 56.
CAR_RENTAL_COMPANY_CAR 테이블에서 '네비게이션' 옵션이 포함된 자동차 리스트를 출력하는 SQL문을 작성해주세요. 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.
SELECT *
from car_rental_company_car
where options like '네비게이션'
order by car_id desc
SELECT *
from car_rental_company_car
where options like '%네비게이션%'
order by car_id desc
문제 57.
다음은 중고거래 게시판 정보를 담은 USED_GOODS_BOARD 테이블입니다. USED_GOODS_BOARD 테이블은 다음과 같으며 BOARD_ID, WRITER_ID, TITLE, CONTENTS, PRICE, CREATED_DATE, STATUS, VIEWS은 게시글 ID, 작성자 ID, 게시글 제목, 게시글 내용, 가격, 작성일, 거래상태, 조회수를 의미합니다.
SELECT board_id, writer_id, title, price,
case when status = 'DONE' then '거래완료'
when status = 'RESERVED' then '예약중'
when status = 'SALE' then '판매중'
from used_goods_board
where created_date ='2022-10-05'
order by 1 desc
SELECT board_id, writer_id, title, price,
case when status = 'DONE' then '거래완료'
when status = 'RESERVED' then '예약중'
when status = 'SALE' then '판매중'
end as status
from used_goods_board
where created_date ='2022-10-05'
order by 1 desc
case when 에서 end로 끝내지 아니함.
통계학 기초
학습 목적
- 통계와 확률에 대한 기초적인 이해와 활용
- 통계적 가설 검정 방법론을 이해
- 파이썬 기반의 통계 분석 사례
학습 목표
- 통계적 가설 방법론을 실제 데이터에 활용
- 파이썬을 이용하여 통계 방법론을 코드 기반으로 수행
- ANOVA와 Regression을 사용
통계학 기초에서 우리가 공부할 것
- 입문 레벨의 통계학 방법론: T-test ANOVA, Regression
- 방법론 적용의 주요한 문제점과 해결법 : 통계적 가정 Statistical Assumption/ 데이터 변환과 이상치
- 실질적인 방법론 적용 실습: 파이썬 기반의 모델 적용 실습
- One more step을 위해 공부할 방향성
통계학 기초 1주차
기술적으로 수치에 대한 분석이 타당한가? 를 판단-> 통계학
이것을 통해 내린 결론, 끌어낸 함의가 바람직한가? 를 판단 -> 데분의 영역
기술 하드 스킬 + 실제 연구비즈니스에 적용 및 스토리텔링, 도메인 이해 소프트 스킬 => 둘 중에 무엇에 방점을 찍을테냐.
- 새벽 5시. 하루 마무리 인간과 기상 인간의 교차점
timezone. utc 전세계 공통/ 한국 kst 확인
- a/b test의 경우 근소한 차이. (넘 클 경우 그게 더 이상.)
- 좋은 분석은 액션 아이템이 나와야 함
가정
- 결과 신뢰를 위한 최소한의 데이터 볼륨
- 데이터 혹은 오차가 어떠한 분포를 따른다는 제약 (회귀분석, anova)
방법론이 옳더라도 해석이 올바라야 함
통계의 효용
- 의사결정에 대한 이론적 근거, 객관적 자료 -- 설득력을 높임.
- 모호한 상황, 불확실성을 수치로 가시화
- 체계화된 프로세스 -- 리스크 제거
확률적 stochastic
- 실제로 일어나기(realize) 전까지는 확률적
- 결정되지 않았기에 비결정적
- 확률적 움직임을 수식화; 분포
확률의 개념
- 통계적 확률: 어떤 시행 n번 반복 시 사건 a가 발생할 횟수
- 수리적 확률
평균: 데이터 집합을 가장 잘 나타내는 단일 숫자/값
- 산술평균: 왜도와 이상치에 취약(중앙값 - 극단치 영향 덜, 최빈값 - 애매한 지표)
- 기하평균: 모든 데이터를 곱한 뒤 전체 데이터의 수로 제곱근을 취해줌
- 조화 평균: 역수를 합한 뒤 다시 역수를 취함 F1-score, 시계열 데이터의 이동평균
- 로그 평균: 각 관측치 로그 변환 후 산술 평균 집계(이상치와 왜도에 강건, 상대적 비교에 유용)
- 절삭 평균: 상하위 일부 제거 후 산술 평균, 극단값 제거. (이상치에 강건, 왜도에는 취약. 변환이 없기에 결과값에 직접적인 해석 가능)
왜도: 왼.오로 쏠린 꼬리, 왜도가 있으면 평균이 전체 데이터를 대표하지 못함, 기존에 숫자로 표현하나,
그냥 그래프로 보는 게 훨씬 더 많은 것을 파악할 수 있음.
이상치 outlier
평균의 통계적 활용
분포: 실제로 자주 볼 수 있는 일부 확률의 케이스들을 체계적으로 정리 (ex. 베르누이/이항/정규분포)
정규분포 (평균:0 분산:1)
모수: 알려져 있지 않으나 통계를 통해 추정
상수와 변수
모수: 상수
일어날 확률: 변수
중심극한 정리의 정의와 의의
- 많은 경우 독립적이고 동일한 분포를 갖는 (iid) 확률 변수의 경우 (*iid;독립,동일,분포)
- 원래 변수 자체가 정규 분포를 따르지 않더라도, 표본 평균의 분포가 정규분포를 따르는 경향
- 표본의 분포와 무관하게 표본 평균의 분포가 정규분포를 따른다
수렴 conversion 속도
- 더 빠르게 더 적은 데이터로 or 굉장히 느리게 훨씬 더 많은 데이터로 수렴.
- clt는 표본 평균의 분포가 정규분포로 수렴함을 의미
대부분의 분포가 정규분포로 수렴, 많은 분포가 서로 연관
정규 분포의 모수는 평균과 분산 두 가지. 한 번에 두가지 모두 추정 쉽지 아니함.
t분포 - 표준정규분포에 조금 더 여유를 준. (여유; 분포를 넓게 준)
t분포 - 자유도--데이터의 수
데이터 수가 무한히 많을 경우, t분포는 정규분포에 수렴
(통계학, 두문자어를 소문자로 표기하는 경향)
p-value는 낮을수록 좋음
통계적 가설 검정이란?
- 해당 자료가 가설을 충분히 뒷받침 하는지의 여부를 결정
- 정량적인 측정량, 객관적으로 납득할만한 기준
귀무가설(0,null): 기존의 통념, 기본값, 영가설
대립가설(1,alternative):새롭게 입증하고자 하는 연구가설
뮤, 시그마 - 알 수 없지만 알고자하는
x- 실제로 끌어낼 통계량
p-value: 귀무가설이 정확하다는 가정하에 실제 관찰된 결과만큼 극단적인 검정 결과를 얻을 확률
(사회과학에서의 5%의 유의수준; 20번에 1번 정도는 오류를 허용한다)
제 1종 오류: 귀무가설이 참이나 기각하는 경우
제 2종 오류: 귀무가설이 거짓이나, 기각하지 못하는 경우
1종 오류가 발생하지 않을 가능성: 신뢰수준 confidence level
로그 사용 시 왜도가 완화됨
p-value의 흑백 논리. 절대적 기준에만 집착하지 말 것. 대안으로 신뢰구간을 권장
95%의 신뢰구간: 표본을 뽑아 신뢰구간을 무수히 많이 계산한다면 100번 중 95번은 신뢰구간이 모수를 포함
신뢰구간으로 모수의 범위를 짐작 가능
첨 듣는 개념 정리:
행렬 분해 알고리즘
Embedding vector
추천 알고리즘
missing pop
cvr
애자일
병렬처리