240418목_TIL
수집한 데이터 무한 전처리
엑셀에서 특정문자 제거 하는 방법 입니다.
오늘은 남들은 잘 안쓰지만 전 필요해서 종종 쓸것 같은 엑셀 기교(?)에 대해 이야기 하려 합니다. 간만에 ...
blog.naver.com
사이트 | 검색 키워드 | 기업이름 | 포지션이름 | 포지션이름 전처리 | 포지션 세부 | 마감일 | 상시 채용 여부 | 경력_min | 경력_max | 학력 | 학력 세부정보 | 스킬 | 제출서류 | 채용절차 | 채용형태 | 채용형태_전처리 | 채용형태_전처리 세부 | 급여 | 근무시간 | 근무장소 | 근무장소 시 | 근무장소 구 | 경기도 구 | 근무형태 | 주요업무 | 기업소개 | 인재상 | 자격요건 | 우대사항 | 복지 | 도메인 | 표준산업분류 | 주요사업 | 설립 | 사원 수 | 기업 평균 연봉 | 기업유형 | 기업 유형 전처리 | 기업 유형 전처리 _세부 | 매출액 | 접수방법 | 총점 | 복지 및 급여 | 업무와 삶의 균형 | 사내문화 | 승진 기회 | 경영진 | 기업추천율 | CEO 지지율 | 성장 가능성 | 하이라이트+태그 | 퇴사 | 입사 | 링크 |
전처리
- 기업명
- 포지션 명
- 마감일
- 상시채용 여부
- 경력
- 학력
- 근무장소
- 설립
- 기업 유형
- 총점
끝 이 업 당,!
경기도 -- 도 시 군/구/읍..
서울 촌놈의 무지성 전처리, 아 그래서 도메인 지식이 중요하구나 배운 바..
과정 중 샘의 피드백
○ 정규화해서 스키마 그리면 되겠다.
○ 주요업무- 한 컬럼 안에 정보가 많다.
○ Isin method 사용 - 정규화
○ 하나의 컬럼이 여러 차원의 데이터로 만들어질 수 있다.
○ 지금 님들이 가진 것 ? 데이터 마트 raw 데이터 레이크
○ 업무 기업소개 채용정보만 다른 시트로 따로 빼서 이용해보삼
○ 주요업무 - T/f로 해당하는 항목, 님들이 생각한 역량 넣어서 데이터를 정제
○ 매출 규모 데이터의 경우, 절대적 지표만 봐서는 알 수 없다
→ 상대적 지표를 사용하셈. like It회사와 제조업을 비교
→ 데이터 분석가를 가지고 있는 회사의 평균 인원 이 정도입니다. ~
전체 제조업 평균 인구는 훨씬 많다.
절대적 수치를 떠나 상대적 지표를 보셈
○ 하나하나 분리해서 정규화 스키마.
○ 분리된 테이블에서 드러나는 인사이트 – 정성 분석 혹은 그래프 수치를 포함한 정량 분석
○ 인사이트가 잘 보일 것 같다.
○ 궁극적으로 , 학생들이 원하는 것을 입력하면 필터링을 통해 너는 이게 잘 맞을 것이다. 라고 보여주는 것.
○ 데이터를 분해하면, 인원수 이런거 다고려말고 - 본인 역량에 맞춤된 필터링.
주요 채용공고 . 주요 역량 테이블을 분리
그것에 대해서만 필터링을 해서 본인과 잘 맞는 본인의 역량에 대한 회사를 조회하는 방향
○ 가치 있다고 느껴지는 점.
실제로 마주하는 문서를. 정제하고 실제로 정제하는 과정에서 어떤 방법을 쓰고 어떤게 효과적인지 판단 근거. 방법. 이 두 분에게 좋다.
○ 챗지피티. 딥러닝. 텍스트 마이닝
실제 달성 목적보다 투머치
간단하게 바이너리로 했다.
는 Lesson learn 을 담을 수.
○ 세련되게 이야기 하면
학생 입장에서 정보처리에 불과하겠다만,
기업 입장에서는 액션 하기 위한 근거 획득 과정
like, 데이터리안 사업자라고 생각해보면 (5년차 된 데분가.)
사업 내용: 학생들이 sql에 대한 수요가 있으니 그것을 알려주자.
+ 아이디어, 채용공고를 분석해서 채용공고를 학생들에게 컨설팅 형태로 제공.
회사 내 서비스 mau, 리텐션 지표. 제공해서 수강률을 높이자. 접근방식
→회사 구성원으로서 회사의 비즈니스 중 하나로 생각.
웹사이트를 만든다.면
잡플래닛, 원티드 처럼 특정한 직무에 대해 진입하자는 뉴비들에게 어떤 식으로 산업 특정직군의 채용공고가 형성되어 있는가,
그중 데이터 분석을 ~
그런식으로 더 세련되게 표현해보셈요. ex. 우리는 원티드 내에서 리텐션 ~ 뫄뫄하는 채용공고 분석 서비스 팀이다.
기존에 있는 채용공고 200개 수집. 직무에 맞춰 역량 6가지 정의 방법 제시.
최종적으로 채용공고를 긁어 .
큰 테이블을 한 번 보고 테이블에서
채용공고에 등장하는 텍스트를 전처리
핵심 역량을 추출하는 프로세스를 만든는 과정
과정에서 배운 통계 방법 머신러닝 방법은 쓰지 못하는 건 아쉬우나.
결과가 트렌디 하고 기술적인 내용을 써야 결과가 좋은 것은 아니다.
단순한 것이 직관적으로 좋은 결과를 나타낼 때가 많다
통계적 방법 적용해보고 싶다면, 데이터 분석 직무 분야의 인원수 vs. 제조업 인원수.
It 기업과 제조업 기업수 인원수가 실제로 차이가 나는가 t-test 검증.
→수치형 데이터가 있다면 적용 가능.
1 텍스트 전처리 비정형
2 그나마 있는 수치형으로 시각화.
정보를 획득, 통계로 가설을 검증 하는 2트랙.
지피티에게 척도 계산 시, 꺽쇠 클릭하면 코드가 나옴.
척도를 만드는 것 자체가 큰 과업이다!
복잡하게 하는 것보다 간단하게.
필수요건 – 가중치 1점
우대 2점.
같은 역량이라도, 우대사항에 맞는 공고를 위에 올리는 추천 방식.
정량화의 근거를 만드는 과정은 어려운 것이다.
그럴 수록 단순하게.
왜 두배로 했느뇨. 2,3,4배도 가능하지 않느뇨? 한다면,
객관적으로 평가하기 어려우니 단순히 2배로 측정하고 가정하고 본다.라는 근거와 설득.
비정형의 경우, and or 로 나누면 복잡해짐
or로 통일하는 것이 좋을 것이다.
완벽하게 하려해서 실패한다는 명언,,
+
쿠팡에서 hr analytics 공고
회사 내부 사람들의 평가 연봉 데이터로 관리하는 분석.
어떻게 하는 지 접근 방법 보아도 아이디어를 얻을 수 있다.
Q. 컬럼 내역을 벡터화하여 딥러닝 추천 모델 사용이 가능할지요.
A. 데이터의 품질과 개수 이슈가 있을 수 있겠다.
안해봤지만 힘들 것이다.
추천 시스템 - 머신러닝 기반 딥러닝 기반.
정형 데이터라면, 딥러닝까지 가지 않아도
고전적인 머신러닝 모델로도 충분.
딥러닝의 경우, 자연어 컴퓨터 비전에 많이 사용됩니다
A공고와 비슷한 공고 bcd
아이템 기반 추천 시스템.
코사인 유사도.
특성 분석.
아이템 정보 속성 벡터화 유사도 계산
사업 초기 콜드스타트 문제와 같이. 아이템 기반 추천 이런 경우 왕왕 사용합니다.
사용자 기반. 기업들에 대한 평점이 있으니 평점같은 것으로 할 수도 있겠으나, 문제는 기업 전체에 대한 평점일 뿐, 데이터 직무에 대한 평점 부재
가져갈 수 잇는것
비정형데이터를 뛰어난 기술이 아닌 목적달성을 위해 다뤘다는 점
이 제일 크다.
왜 기획햇는지
목적을 달성하기 위해 어떤 방법을 썼는지
그 방법을 선택하게 된 이유.
데이터 전처리에, 텍스트 마이닝 적용가능치만 채용공고는 그 정도로 뎁스가 깊지 않다
판다스 메소드로만 해도 쉽게 됐다.
어설프게 어려움 알고리즘을 사용하는 것보다는
목적이 확실하고 결과가 해석 가능하고 비즈니스에 적용 가능/한 지점을 어필