240119금

TIL

240119금_TIL

30303 2024. 1. 19. 12:16

728x90

챕터3 발제:

발제별 그대로 진행해주면 좋겟다.

커리큘럼을 그대로 진행. 시간이 남으면 +a

통계학 기초

목적을 가지고 학습해라

학습 목적과 목표대로 가고 있느냐.

설득을 위해 데이터 준비.

전처리. 시각화.

라이브러리 기초 잘 배우기.

1/19금 ~화 통계학 기초 1~15강 5시간

1/24-1/26 데이터 전처리. 시각화 1,2,3,4주차.

알고리즘 코드카타

정수 n이 주어질 때, n이하의 짝수를 모두 더한 값을 return 하도록 solution 함수를 작성해주세요.

def solution(n):
    answer = 0
    for i in range(n):
        if n%2==0:
            answer+=i
    return answer

def solution(n):
    answer = 0
    for i in range(1,n, 2):
            answer+=i
    return answer

어찌 더하는 구조인지는 알겟으나 파이썬..까먹어서 .. 모르겠다...

강의 더 듣고 풀어야겟삼.

sql 코드카타

문제 56.

CAR_RENTAL_COMPANY_CAR 테이블에서 '네비게이션' 옵션이 포함된 자동차 리스트를 출력하는 SQL문을 작성해주세요. 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.

SELECT * 
from car_rental_company_car
where options like '네비게이션'
order by car_id desc

SELECT * 
from car_rental_company_car
where options like '%네비게이션%'
order by car_id desc

문제 57.

다음은 중고거래 게시판 정보를 담은 USED_GOODS_BOARD 테이블입니다. USED_GOODS_BOARD 테이블은 다음과 같으며 BOARD_ID, WRITER_ID, TITLE, CONTENTS, PRICE, CREATED_DATE, STATUS, VIEWS은 게시글 ID, 작성자 ID, 게시글 제목, 게시글 내용, 가격, 작성일, 거래상태, 조회수를 의미합니다.

SELECT board_id, writer_id, title, price, 
case when status = 'DONE' then '거래완료'
when status = 'RESERVED' then '예약중'
when status = 'SALE' then '판매중'
from used_goods_board
where created_date ='2022-10-05'
order by 1 desc

SELECT board_id, writer_id, title, price, 
case when status = 'DONE' then '거래완료'
when status = 'RESERVED' then '예약중'
when status = 'SALE' then '판매중'
end as status
from used_goods_board
where created_date ='2022-10-05'
order by 1 desc

case when 에서 end로 끝내지 아니함.

통계학 기초

학습 목적

- 통계와 확률에 대한 기초적인 이해와 활용

- 통계적 가설 검정 방법론을 이해

- 파이썬 기반의 통계 분석 사례

학습 목표

- 통계적 가설 방법론을 실제 데이터에 활용

- 파이썬을 이용하여 통계 방법론을 코드 기반으로 수행

- ANOVA와 Regression을 사용

통계학 기초에서 우리가 공부할 것

- 입문 레벨의 통계학 방법론: T-test ANOVA, Regression

- 방법론 적용의 주요한 문제점과 해결법 : 통계적 가정 Statistical Assumption/ 데이터 변환과 이상치

- 실질적인 방법론 적용 실습: 파이썬 기반의 모델 적용 실습

- One more step을 위해 공부할 방향성

통계학 기초 1주차

기술적으로 수치에 대한 분석이 타당한가? 를 판단-> 통계학

이것을 통해 내린 결론, 끌어낸 함의가 바람직한가? 를 판단 -> 데분의 영역

기술 하드 스킬 + 실제 연구비즈니스에 적용 및 스토리텔링, 도메인 이해 소프트 스킬 => 둘 중에 무엇에 방점을 찍을테냐.

- 새벽 5시. 하루 마무리 인간과 기상 인간의 교차점

timezone. utc 전세계 공통/ 한국 kst 확인

- a/b test의 경우 근소한 차이. (넘 클 경우 그게 더 이상.)

- 좋은 분석은 액션 아이템이 나와야 함

가정

- 결과 신뢰를 위한 최소한의 데이터 볼륨

- 데이터 혹은 오차가 어떠한 분포를 따른다는 제약 (회귀분석, anova)

방법론이 옳더라도 해석이 올바라야 함

통계의 효용

- 의사결정에 대한 이론적 근거, 객관적 자료 -- 설득력을 높임.

- 모호한 상황, 불확실성을 수치로 가시화

- 체계화된 프로세스 -- 리스크 제거

확률적 stochastic

- 실제로 일어나기(realize) 전까지는 확률적

- 결정되지 않았기에 비결정적

- 확률적 움직임을 수식화; 분포

확률의 개념

- 통계적 확률: 어떤 시행 n번 반복 시 사건 a가 발생할 횟수

- 수리적 확률

평균: 데이터 집합을 가장 잘 나타내는 단일 숫자/값

- 산술평균: 왜도와 이상치에 취약(중앙값 - 극단치 영향 덜, 최빈값 - 애매한 지표)

- 기하평균: 모든 데이터를 곱한 뒤 전체 데이터의 수로 제곱근을 취해줌

- 조화 평균: 역수를 합한 뒤 다시 역수를 취함 F1-score, 시계열 데이터의 이동평균

- 로그 평균: 각 관측치 로그 변환 후 산술 평균 집계(이상치와 왜도에 강건, 상대적 비교에 유용)

- 절삭 평균: 상하위 일부 제거 후 산술 평균, 극단값 제거. (이상치에 강건, 왜도에는 취약. 변환이 없기에 결과값에 직접적인 해석 가능)

왜도: 왼.오로 쏠린 꼬리, 왜도가 있으면 평균이 전체 데이터를 대표하지 못함, 기존에 숫자로 표현하나,

그냥 그래프로 보는 게 훨씬 더 많은 것을 파악할 수 있음.

이상치 outlier

평균의 통계적 활용

분포: 실제로 자주 볼 수 있는 일부 확률의 케이스들을 체계적으로 정리 (ex. 베르누이/이항/정규분포)

정규분포 (평균:0 분산:1)

모수: 알려져 있지 않으나 통계를 통해 추정

상수와 변수

모수: 상수

일어날 확률: 변수

중심극한 정리의 정의와 의의

- 많은 경우 독립적이고 동일한 분포를 갖는 (iid) 확률 변수의 경우 (*iid;독립,동일,분포)

- 원래 변수 자체가 정규 분포를 따르지 않더라도, 표본 평균의 분포가 정규분포를 따르는 경향

- 표본의 분포와 무관하게 표본 평균의 분포가 정규분포를 따른다

수렴 conversion 속도

- 더 빠르게 더 적은 데이터로 or 굉장히 느리게 훨씬 더 많은 데이터로 수렴.

- clt는 표본 평균의 분포가 정규분포로 수렴함을 의미

대부분의 분포가 정규분포로 수렴, 많은 분포가 서로 연관

정규 분포의 모수는 평균과 분산 두 가지. 한 번에 두가지 모두 추정 쉽지 아니함.

t분포 - 표준정규분포에 조금 더 여유를 준. (여유; 분포를 넓게 준)

t분포 - 자유도--데이터의 수

데이터 수가 무한히 많을 경우, t분포는 정규분포에 수렴

(통계학, 두문자어를 소문자로 표기하는 경향)

p-value는 낮을수록 좋음

통계적 가설 검정이란?

- 해당 자료가 가설을 충분히 뒷받침 하는지의 여부를 결정

- 정량적인 측정량, 객관적으로 납득할만한 기준

귀무가설(0,null): 기존의 통념, 기본값, 영가설

대립가설(1,alternative):새롭게 입증하고자 하는 연구가설

뮤, 시그마 - 알 수 없지만 알고자하는

x- 실제로 끌어낼 통계량

p-value: 귀무가설이 정확하다는 가정하에 실제 관찰된 결과만큼 극단적인 검정 결과를 얻을 확률

(사회과학에서의 5%의 유의수준; 20번에 1번 정도는 오류를 허용한다)

제 1종 오류: 귀무가설이 참이나 기각하는 경우

제 2종 오류: 귀무가설이 거짓이나, 기각하지 못하는 경우

1종 오류가 발생하지 않을 가능성: 신뢰수준 confidence level

로그 사용 시 왜도가 완화됨

p-value의 흑백 논리. 절대적 기준에만 집착하지 말 것. 대안으로 신뢰구간을 권장

95%의 신뢰구간: 표본을 뽑아 신뢰구간을 무수히 많이 계산한다면 100번 중 95번은 신뢰구간이 모수를 포함

신뢰구간으로 모수의 범위를 짐작 가능

첨 듣는 개념 정리:

행렬 분해 알고리즘

Embedding vector