sql 코드카타
문제 58.
PATIENT, DOCTOR 그리고 APPOINTMENT 테이블에서 2022년 4월 13일 취소되지 않은 흉부외과(CS) 진료 예약 내역을 조회하는 SQL문을 작성해주세요. 진료예약번호, 환자이름, 환자번호, 진료과코드, 의사이름, 진료예약일시 항목이 출력되도록 작성해주세요. 결과는 진료예약일시를 기준으로 오름차순 정렬해주세요.
SELECT a.apnt_no, p.pt_name, p.pt_no, d.mcdp_cd, d. dr_name, a.apnt_ymd
from patient p join appointment a on p.pt_no=a.pt_no
join doctor d on a.mddr_id = d.dr_id
where a.apnt_cncl_yn='N' and a.apnt_ymd like '%04-13%' and d.mcdp_cd='CS'
order by apnt_ymd
문제 59.
CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고, 대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여 자동차 ID와 AVAILABILITY 리스트를 출력하는 SQL문을 작성해주세요. 이때 반납 날짜가 2022년 10월 16일인 경우에도 '대여중'으로 표시해주시고 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요.
SELECT car_id, case when end_date>='2022-10-16' then '대여중'
else '대여 가능' end as availability
from car_rental_company_rental_history
order by 1 desc
SELECT car_id, max(case when '2022-10-16' between start_date and end_date then '대여중'
else '대여 가능' end) as availability
from car_rental_company_rental_history
group by 1
order by 1 desc
알고리즘 코드카타
문제 11.
정수 num이 짝수일 경우 "Even"을 반환하고 홀수인 경우 "Odd"를 반환하는 함수, solution을 완성해주세요.
def solution(num):
if num%2==0:
return "Even"
else :
return "Odd"
return answer
파이썬; 반복문 복습 필요.
건강한 t-test
대체로 이상치와 왜도로 인해 왜곡됨
로그를 씌우자.
모수, 신뢰구간 - 변수가 아니라 상수. (들어가거나 들어가지 않거나 하나만 가능?) 따라서, 신뢰구간으로 모수의 범위를 짐작가능하다.
검정통계량 t; 두 집단의 평균의 차이
일표본 one- sample t-test
이표본 two-sample t-test
- 두 집단의 평균 차이 검정
대응표본 paried t-test
- 두 집단의 대응관계. / 전후 비교/ 통제된 환경 (a/b test로 대체되는 경향)
t-test의 한계
-두 개의 집단상대로 유용(집단이 세개인 경우, 부족)
- 여러 회차 반복 시 신뢰수준이 크게 떨어질 수
분산 분석 ANOVA(Analysis of variance)
-집단이 세 개일 경우, 여러 집단의 평균을 한번에 검사
-귀무가설; 모든 평균이 같다
-대립가설; 적어도 하나 이상의 집단의 평균이 다르다.
-어느 집단인지는 따로 알아내야.
anova 원리:평균을 검정하는 분산 분석
평균을 비교하는데, 분산을 이용
카이제곱, F 분포
- 두 카이제곱의 비 ratio를 이용해 두 분산을 비교
- 이것을 f분포로 칭함.
집단 간 분산
- 집단 사이의 평균 분산
- 집단 사이의 평균이 멀수록 집단 간 분산이 커짐. - 귀무가설 기각 확률 상승
집단 내 분산
- 집단 내 분산
-집단 내 보다 집단 간 분산이 더 커야 비교 가능
ANOVA의 활용과 한계
- p-value 가 낮을 경우, 적어도 하나의 집단의 평균이 다르다는 것을 알기에 귀무가설을 기각
- 그러나, 어느 집단인지는 모르기에 이를 해결하기 위해 사후검정 진행
사후검정
- 일반적으로 tukey 사용
실질적 / 통계적 유의
-아무리 통계적으로 유의하나 실질적인 효과가 없다면 의미 없음
정규성; 잔차의 분포는 정규 분포를 따라야 함.
왜도 이상치; qqplot을 통해 시각적으로 확인 가능
shapiro 대표본에 부적합 소표본 <=50에 유용
kolmogorov 비교적 대표본에 유용
등분산성; 분산이 얼마나 동일하게 퍼져있는가.
독립성; 각 관측치가 독립적으로 분포
- 다중 공선성
각 데이터 순서에 따른 패턴이 존재 ; 자기 상관성
판다스 자유도 n-1, 넘파이 n
회귀 분석
자료형
질적자료- 명목,순서
양적자료- 이산(이항,베르누이분포), 연속
독립변수; 종속변수 예측, 설명에 활용되는 변수 , 요인factor, 피쳐 feature
종속변수; 예측, 설명하고자 하는 변수
티테스트, 아노바 독립; 질적자료 종속; 양적 자료
linear regression
선형 상관관계 - 피어슨
비선형 상관관계 - 스피어만
회귀 모형.
xy는 데이터로 주어지며 b0,b1을 찾아내야 함.
모형 적합 fit
SSE/SST/SSR
OLS
모형 평가
결정계수. 전체에서 못 맞춘 정도를 뺀. 얼마나 잘 맞췄나. 모형이 종속변수의 변동을 설명했나.
통계적 가정과 검사
durbin-watson 독립성 검사
jarque bera 정규성 가정
omnibus 모형에 대한 평가
skew 왜도 kurtosis cjaeh
f값 굉장히 적을 경우, 통계적으로 유의
r스퀘어는 1에 가까울 수록 좋삼 +수정결정계수 추가 공부
더미변수
범주형 자료를 회귀에서 다루기 위해 더미화.
통계학; 마지막 차원 하나 생략하여 자유도 조절.
그렇지 않을 경우 회귀모형의 경우 다중공선성 문제로 적합 불가.
(독립변수가 질적이여 더미화 하여 사용; ANOVA)
다중회귀
독립 변수 여러개.
다중공선성의 문제- 독립변수 사이의 선형 종속성이 있다.
교호작용; 같은 변수도 관측치마다 다른 영향
고차항; 고차항을 추가하여 비선형을 포함한 더 복잡한 관계를 모형화 가능
자유도와 유연성; 모델도 복잡도를 가짐
노이즈는 학습하지 않되 적당히 유연하며 데이터에 극적으로 반응 않는 모델. 너무 복잡하지도 않은.
유연성이 늘어남에 따라 에러가 줄다가 늘어나는.
로그 변환; 유용. 변수의 로그변환은 편향의 가능성
Ridge&LASSO; 베타에 페널티를 주어 분산 안정화, 성능 개선
변수 선택; 전진선택, 후진제거, stepwise/ AIC,BIC
상관 ; 대부분 상관관계
지도학습
회귀regression; 종속 변수가 양적
분류classification; 종속 변수가 질적
240124수_TIL (0) | 2024.01.24 |
---|---|
240123화_TIL (2) | 2024.01.23 |
240119금_TIL (2) | 2024.01.19 |
240118목_TIL (0) | 2024.01.18 |
240117수_TIL (0) | 2024.01.17 |