SQL 코드카타
문제 3. 중복 제거 하기
해당 컬럼 앞에 distinct 를 붙여주면 된다는 것.
중복을 제거하고 개수를 세겠다? count(distinct(컬럼명))
문제 4. 아이디 순으로 이름을 조회하기
order by id
코드카타 문제 다시 푸니까 희미해져가는 개념이 다시금 돌아오는 이점이.
데이터분석 종합반 강의 1주차(1-1.~1-4.)
데이터 분석이란? == 하고자 하는 바에 대해 명확한 근거를 제공하는 도구
캐글 등의 데싸 플랫폼이 있다고 한다. 이용해보도록 해야겠음
파이썬 학습 이전에, 엑셀을 통해 데이터 분석의 기본 사이클을 경험
1. 문제 정의 및 가설 설정
타이타닉호의 생존률을 분석하는 작업을 진행.
가설1. 지불한 요금이 높을수록 생존률이 높을 것이다.
2. 데이터 분석 기본 세팅
엑셀 스프레드 시트를 이용할 시 =>
XLMiner Analysis ToolPak
확장 프로그램을 설치하면, spss 와 같이 다양한 통계적 분석이 가능하다.
데이터 전처리=> 필터를 이용해 결측값을 제외시킨다.
3. 데이터 분석
input range에 입력값의 범위를
output range 에 출력값을 나타낼 범위를 작성한다.
4. 분석 결과 시각화
결과 값을 전체 선택한 후, 삽입 -> 시트 를 선택하면 바로 시각화가 가능하다.
계열에서 맞춤설정 등으로 필요한 값만 남겨두면 간단하게 상관관계 분석이 가능하다.
충격적으로 간편하다.
(다음 강의에서 이어지겠지만, 파이썬이 훨씬 유용하다고 한다. 대용량 데이터 분석, 다양한 시각화, 데이터 전처리의 유용성등의 이유로..)
5. 최종 결론
상관관계 분석 결과, 생존과 성별의 상관계수가 0.5로 가장 높았다.
남성 0 여성 1로 지정되었으므로, 여성의 경우 생존률이 높았다는 분석.
유추를 하면, 당대 레이디 퍼스트 문화 및 노약자 여성 우선 탈출 등일 것이라고 강의에서는 말한다.