최종 플젝 발제.
스파크 강의~
최소 챕터2까지는~
금욜부터 qr체크인
스파크
대규모 데이터 처리용 통합 분석 엔진~ 대부분 테크 기업에서 거의 사용된다고
pyspark: python 기반으로 추가적인 언어 공부가 필요 없음
분산처리: 여러 대의 컴퓨터로.
스파크를 사용 않고, 샘플링-경량화-분할-스케일업 등으로 문제를 해결하는 방법.
-데이터 특성에 따라 사용하지 않는게 효율적인 경우도
메모리와 기억장치
RAM- 작업공간, 휘발성, 단기기억
Disk(SSD)-저장공간, 장기기억
CPU
https://computasha.github.io/CS-cpu-core-thread/
CPU 코어와 스레드
블로그 이전했습니다! https://computasha.com/basic/term/CPU+코어와+스레드 CPU 코어 CPU = centeral Processing Unit, 중앙 처리 장치 코어 = 물리적인 CPU의 프로세서를 의미 CPU 코어의 역사 싱글 코어 👤 = 한 명이
computasha.github.io
적절한 데이터 타입 사용 시 30%이상의 메모리 절약 가능
정수 integers
이진법
더 많은 메모리를 할당할 수록 더 큰 숫자를 담을 수
데이터 프레임 - 하나의 컬럼은 각 행은 모두 같은 데이터 타입. 기본 int64
overflow
다룰 수 있는 데이터 크기를 넘은.
파이썬 데이터 타입 - 동적으로 자동으로 데이터 타입이 바뀌기에, 큰 숫자를 다루는 경우 주의할 것
부동소수점 floating points
정수가 아닌 수를 표현
소수점은 항상 오차가 존재
정밀한 정도 float16<float 64
ex. 금융권의 소수점; 10...을 곱하여 정수로 변환시키기도
양자화
증가하는 오차를 감수하고 모델을 경량화. 메모리 사용량을 줄이기 위해
ex. float8을 이용하는 LLM 모델/ solar upstage
String
문자열 - 유니코드
많은 메모리 차지.
Category 범주형
많은 메모리를 차지하는 문자열의 대안
데이터 고유 값을 내부에서 숫자로 치환
Datetime
일반적으로 unix timestamp기준. (한국kst과 9시간 차)
UTC time zone - 1970년 1월 1일 0시 기준으로 몇 초가 경과하였는가
Time zone이 명시되지 않은 데이터는 쓰레기~
시간의 표준화 필수적
선택의 연속연속 피로.
주도적으로 할 수 있는 것을 계속 발굴해보자
발전방향: 크롤링 및 텍스트 분석, 수집-제작-배포, 자동 업로드 시스템이 구축 가능한지
240318월_TIL (2) | 2024.03.18 |
---|---|
240314목_TIL (0) | 2024.03.14 |
실전 프로젝트 KPT 회고 (0) | 2024.03.13 |
240312화_TIL (0) | 2024.03.12 |
SQL to Pandas (2) (0) | 2024.03.12 |