상세 컨텐츠

본문 제목

240313수_TIL

TIL

by 30303 2024. 3. 13. 21:44

본문

728x90

최종 플젝 발제. 

스파크 강의~

최소 챕터2까지는~

금욜부터 qr체크인

 


스파크

 

대규모 데이터 처리용 통합 분석 엔진~ 대부분 테크 기업에서 거의 사용된다고

pyspark: python 기반으로 추가적인 언어 공부가 필요 없음

분산처리: 여러 대의 컴퓨터로. 

 

스파크를 사용 않고, 샘플링-경량화-분할-스케일업 등으로 문제를 해결하는 방법.

-데이터 특성에 따라 사용하지 않는게 효율적인 경우도

 

메모리와 기억장치

RAM- 작업공간, 휘발성, 단기기억

Disk(SSD)-저장공간, 장기기억

 

CPU 

https://computasha.github.io/CS-cpu-core-thread/

 

CPU 코어와 스레드

블로그 이전했습니다! https://computasha.com/basic/term/CPU+코어와+스레드 CPU 코어 CPU = centeral Processing Unit, 중앙 처리 장치 코어 = 물리적인 CPU의 프로세서를 의미 CPU 코어의 역사 싱글 코어 👤 = 한 명이

computasha.github.io

 

적절한 데이터 타입 사용 시 30%이상의 메모리 절약 가능

 

정수 integers

이진법

더 많은 메모리를 할당할 수록 더 큰 숫자를 담을 수

 

데이터 프레임 - 하나의 컬럼은 각 행은 모두 같은 데이터 타입. 기본 int64

 

overflow

다룰 수 있는 데이터 크기를 넘은. 

파이썬 데이터 타입 - 동적으로 자동으로 데이터 타입이 바뀌기에, 큰 숫자를 다루는 경우 주의할 것

 

부동소수점 floating points

정수가 아닌 수를 표현 

소수점은 항상 오차가 존재

정밀한 정도 float16<float 64

ex. 금융권의 소수점; 10...을 곱하여 정수로 변환시키기도

 

양자화

증가하는 오차를 감수하고 모델을 경량화. 메모리 사용량을 줄이기 위해

ex. float8을 이용하는 LLM 모델/ solar upstage

 

String 

문자열 - 유니코드

많은 메모리 차지. 

 

Category 범주형

많은 메모리를 차지하는 문자열의 대안

데이터 고유 값을 내부에서 숫자로 치환

 

Datetime

일반적으로 unix timestamp기준. (한국kst과 9시간 차)

UTC time zone - 1970년 1월 1일 0시 기준으로 몇 초가 경과하였는가

 

Time zone이 명시되지 않은 데이터는 쓰레기~

시간의 표준화 필수적


선택의 연속연속 피로. 

주도적으로 할 수 있는 것을 계속 발굴해보자

발전방향: 크롤링 및 텍스트 분석, 수집-제작-배포, 자동 업로드 시스템이 구축 가능한지

'TIL' 카테고리의 다른 글

240318월_TIL  (2) 2024.03.18
240314목_TIL  (0) 2024.03.14
실전 프로젝트 KPT 회고  (0) 2024.03.13
240312화_TIL  (0) 2024.03.12
SQL to Pandas (2)  (0) 2024.03.12

관련글 더보기