240405금_TIL
라벨링 방법 - nltk/ LLM/ 판다스 수작업
chat gpt api 하이퍼파라미터 설정 ==fine-tuning
질문사항이 트렌디하게 바뀌는 내용이라면, 최신 모델을 사용하는 것이 용이
LLM 트렌드
claude
gemma -오픈소스의 경량 대규모 언어모델 (sLLM)
랭체인- 통합 모듈
https://platform.openai.com/tokenizer
토큰의 개념. 영어를 사용하는 것이 비용감소 측면에서 매우 유리
assistant api를 이용하여 챗봇 구성
스레드
■ 주소: https://platform.openai.com/docs/assistants/overview
■ 스레드를 통해 대화가 저장, 관리된다. 스레드 생성 시 특정 스레드 id가 발급. 예시는 아래와 같다.
■ 나 혼자 특정 챗봇 사용 => 스레드를 만들어서 해당 스레드 id를 사용한다.
■ 여러 명이 사용하는 챗봇 => 사용자마다 스레드 id를 발급
파일 업로드하기 => 파일 id
■ OpenAI 서버에 원하는 파일을 업로드.
■ 파일을 업로드하면 파일 id가 발급된다.
원하는 파일을 서버에 업로드/텍스트 파일도 가능
어시스턴트 생성 => 어시스턴트 id
■ 파일 id와 지시사항 모델을 선택한다.
■ 어시스턴트 id가 발급된다. (챗봇 번호)
Retrieval - 문서를 기반으로 답변하는 챗봇
현재 진행사항과 유사한 모델 탐색
임베딩
주어진 텍스트, 문서를 벡터로 변환하여 유사도를 계산, 가장 유사한 문맥의 정보를 가져오는
그러나, 이 방식으로 현재 job description을 분석하기에는 적합하지 않다.
왜냐하면 대개 비슷한 방식과 내용이 구성되어 있어서 들어가는 비용 대비 유의미한 결과가 출력되지 않을 가능성이 높다는 피드백
대안) 데이터 프레임의 컬럼에 특정 요소가 속하는 지 질문/ 혹은 가장 강조되는 부분이 무엇인지 질문
이에 대한 응답을 기존 데이터 프레임에 새로운 컬럼으로 추가
Q. LLM을 이용해 사이트 링크를 주고 필요한 데이터를 가져올 수 있는가?
데이터 수집+전처리를 한번에 하고자.
A. 사이트를 주게 되면 html 내 button 등 다양한 요소등 까지 input으로 들어가게 된다. .. 그냥 크롤링 하자..
시각화 방안
streamlit
데이터 가져와서 스트림릿에 데이터 프레임 형태 혹은 선택 사항을 클릭 시 이에 대응하는 행만 보여주도록.
가상환경 설정
가상환경을 사용하는 이유?
tensorflow, pytorch 같은 경우 업데이트에 따라 문법의 변화가 많기에
기존 패키지의 버전을 보존하고자.
웹에 배포할 경우에도, 구동에 필요한 특정 패키지만 지정 가능.
.py 확장자 사용하여 파일 저장
가상환경 만들기
#터미널
conda create -n yy python==3.11.5
y
streamlit run streamlit.py(파일명.py)
가상환경 종료 ctrl+c
import streamlit as st
st.title("junsung king")
스트림릿 페이지에 구현된 모습
이 외에 다양한 방식 ~~ 적용해보기.
와 같은 분석 프로세스도 정리하자
+ 현재 진행사항 말고도 확장할 수 있는 방안 탐색
채용 트렌드, 관련 사이트(medium, 요즘 it)의 일자별 핫토픽.