국내 공고도 추가하기로.!
중간 발표 내용.. 구성..
가설
- 연봉 ~ 도메인 별로 어느 도메인이 높다
- 특정 직군이 높다. Da ds de
- 가지고 있는 스킬셋이 많을 수록 연봉 높을 것
- 기업 규모 클수록 연봉이 높을 것
연봉과 관련 없는 가설.
- 경력이 어느 이상
- 학력이 어느 이상
잡플래닛 페이지
원티드 페이지 --꽤나 잘 되어 있다, ,
아티클 LLM으로 분석하기
chat gpt api를 쓰지 않고 그냥 자체로 가능한가?
아티클 제목 주고 키워드 두개 뽑아줘라~ 데이터 프레임으로 만들어라~ 까지 가능
ㅠ,, ㅠ 에서.
txt 파일로 저장.
read.csv
오류.
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc0 in position 0: invalid start byte
df = pd.read_csv(PATH , encoding='cp949')
ParserError: Error tokenizing data. C error: Expected 4 fields in line 16, saw 5
df = pd.read_csv(PATH , encoding='cp949', sep='\t')
근데 이렇게 나오는.. 그래서 sep=',' 하면 오류,, ~ 질문 하러 가세용
원티드 구인공고 전부 크롤링하기! (python, BeautifulSoup)
원티드 구인공고 전부 크롤링하기! (python, BeautifulSoup) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65
gogetem.tistory.com
원티드 크롤링 파이썬 2022
import requests from bs4 import BeautifulSoup import numpy as np import pandas as pd import warnings warnings.simplefilter(action='ignore', category=FutureWarning) 최종코드는 제일 아래 있습니다. 다른 구인구직 플렛폼은 api에 제한
ghdtnsqls.tistory.com
양이 많지 않아서 수작업 하자 . !
잡플래닛/ 원티드/ 워크넷/ 링크드인 / 사람인/ 잡코리아
어떤 형식으로 가져올 지 대략적으로 이야기
240412금_TIL (0) | 2024.04.12 |
---|---|
240411목_TIL (0) | 2024.04.11 |
240409화_TIL (0) | 2024.04.09 |
240408월_TIL (0) | 2024.04.08 |
240405금_TIL (0) | 2024.04.05 |