소프트웨어 2.0 시대(vs 소프트웨어 1.0)
데분가의 롤: 머신러닝 관리 설정, 기계가 학습할 수 있도록 인프라 구축, 분산처리, 튜닝.
이상적인 분석 과정
문제 정의: ex.비용절감/ 프로세스 개선
데이터 확인: 데이터가 있는지
PoC(proof of concept):머신러닝으로 풀 수 있는 문제인지
현업의 과정
문제 - 불명확함, 플젝 기간 내 문제 재정의의 반복
데이터 확인 중 PoC 진행
-와 같은 현상이 일어나는 이유
→규제기간의 규제 대상인 데이터 존재(ex. 신용정보, 산업안전법)
→현업자 :머런 몰루. 데분가: 도메인 몰루.
→예측값에 대한 설명이 중요(비즈니스 언어로 설명할 수 있도록)
상관/인과 관계
1 상관관계만 있는 경우
2 상관, 인과관계가 있으나, 통제가 불가능한 경우
3 둘다 있고 통제 가능한 경우
AI≠도깨비 방망이
강력한 도구와 적절한 도구를 구별해라.
문제에 맞는 기술을 선정할 수 있는 안목이 필요 - 전반에 대한 풍부한 이해가 밑받침 되어야 할듯
AI 필요 없이, 단순 룰베이스가 빠른 경우
만약, 특정 알고리즘(ex. XGBoost)사용한다면, 데이터를 살폈을 때 왜 이 알고리즘이 적합한지 증명해야 함
모든 문제에 딥러닝을 적용할 수 없다, 지만 왜 딥러닝 안 쓰셨나용?의 질문을 받을 것이다.
데싸와 데엔.
데싸 통계 모델링
데엔 프로그래밍, 분산처리 ...
그레이존이 존재
비즈니스에 대한 이해
실제 분석에 쓸 수 있는 데이터만 수집
GIGO
전: 알고리즘 개발 > 데이터 개선/모델 중심 접근 방식/ 모델 튜닝
현: 데이터 중심 접근/ 데이터 튜닝
알고리즘으로 성능을 높이는 것에는 한계. 데이터를 개선하라. Data-Centric Approach!
데이터 품질의 비밀...
네트워크, 자료구조와 백엔드 지식..~
만든 모델이 구현될 환경에 대한 이해를
+os에 대한 이해, 클라우드
다각형 인재가 되기 위한 노력을.! 비즈니스에 대한 지식과 엔지니어링 지식을 겸하자
Classification- loss function / Decision Tree (0) | 2024.03.20 |
---|---|
Regularized model-Ridge code (1) | 2024.03.19 |
Regression-Model 평가 및 지표 해석 (0) | 2024.03.18 |
Regression problem - Loss funtion/ β(계수) 추정법 (0) | 2024.03.15 |
머신러닝으로 접근하는 문제들 (0) | 2024.03.15 |