리스트 예시: 게시물이 존재할 경우 3건을 노출합니다. AI RAG를 위한 파인 튜닝 데이터셋 실습 EDA RAG를 위한 파인 튜닝 데이터셋 실습https://huggingface.co/datasets/iamjoon/klue-mrc-ko-rag-dataset iamjoon/klue-mrc-ko-rag-dataset · Datasets at Hugging Face[ "블리자드 엔터테인먼트(Blizzard Entertainment, Inc.)의 인기 디지털 카드 게임 하스스톤(Hearthstone®) e스포츠를 대표하는 세계 최고의 선수들 여덟 명이 챔피언의 전당에 이름을 올리기 위해 벌이는huggingface.copip install datasetsimport numpy as npimport matplotlib.pyplot as pltfrom datasets import load_datasetdataset = .. AI Fine-tuning For RAG RAFT: Adapting Language Model to Domain Specific RAGUC Berkeley 논문사용자의 질문과 연관된 문서와 정답과 연관이 없는 문서를 섞어서 검색 결과로 가정하고 데이터셋을 구축이 때 연관이 없는 문서들을 negative documents라고 하며 학습에 도움을 주게 된다.이는 Fine-tuning 시 답변과 관련 없는 정보를 식별하는 능력을 향상시키기 때문이다. 파인 튜닝 전, 후 LLAMA2의 RAG 성능 차이는 매우 크게 나는 것을 볼 수 있음LLAMA2-7B를 파인 튜닝한 것이 GPT-3.5 에 RAG 를 한 것보다 성능이 더 좋음 원문을 인용하여 답변하게 하면 성능 Up원문을 인용해야 하므로 할루시네이션 억제일종의 Chain of Thought 프롬프트.. AI MultipleNegativesRankingLoss를 활용한 임베딩 파인 튜닝 MultipleNegativesRankingLoss는 문장 임베딩 모델을 파인 튜닝하는 데 매우 효과적인 손실 함수로. 이 방법에 대해 더 자세히 공부해 보겠습니다. 손실 함수(Loss function): 오차를 계산하는 함수로. AI를 학습할 때는 학습 중인 AI의 예측값과 실제 정답간의 오차를 계산해서 해당 오차를 줄이는 식으로 AI 모델을 학습합니다. 포지티브 샘플과 네거티브 샘플포지티브 샘플(Positive Sample): 의미적으로 관련이 있는 문장 쌍을 의미합니다.예: (문서1: "서울의 인구는?", 문서2: "서울의 인구는 약 970만 명입니다.")네거티브 샘플(Negative Sample): 의미적으로 관련이 없거나 관련성이 낮은 문장 쌍을 의미합니다.예: (문서1: "서울의 인구는?", .. AI RAG 실습 이후 + LLM 추천 위에서 RAG 실습과, 서울 청년 정책 챗봇을 만들어보면서 관련 내용들을 학습했는데, 추가적으로 더 성장하기 위해서는 어떤것을을 학습해야할지 생각해 보았다. 멀티모달 RAG에이전트 RAG (멀티턴 Function Calling / ReACT Agent / Plan and Execute Agent / Corrective RAG 등)키워드 기반 검색 : BM-25 와 앙상블 리트리버 (바이인코더) 임베딩 파인튜닝 (+ 검색 성능 Metric (NDGC, MAP 등 ...))크로스인코더 임베딩 모델 파인튜닝을 이용한 ReRankingRAG 답변 성능 향상을 위한 LLM 파인 튜닝 (LLaMA, Qwen, Gemma) 위 모든 것들을 구현하기 위한 Langchain, LangGraph, Huggingface T.. AI RAG 서울 청년 정책 챗봇 실습 여러 문서에서 찾아서 답변하는 챗봇 만들기!pip install -q langchain langchain-openai openai tiktoken chromadb langchain-community!wget https://github.com/chatgpt-kr/chatgpt-api-tutorial/raw/main/ch05/data.zip!unzip dataArchive: data.zip inflating: 1.txt inflating: 10.txt inflating: 11.txt inflating: 12.txt inflating: 13.txt inflating: 14.txt inflating: 15.txt inflating: 16.txt inflating: 17.txt inflating: 18.txt i.. AI 벡터 스토어와 RAG 실습 우선적으로 실습에 앞서 해야할 일PDF 파일을 다운로드Langchain의 PyPDFLoader로 PDF 파일을 읽어서 페이지 별로 저장.예를 들어 368페이지의 PDF 파일이라면 368개의 문서를 얻게 된다.368개의 문서들은 길이가 제각각입니다. 특정 길이(여기서는 2000)로 제한하고 더 잘라준다.총 378개의 문서가 나오게 됩니다. 378개의 문서를 전부 임베딩(Embedding)하여 벡터 데이터베이스에 적재한다.벡터 데이터베이스는 Chroma 또는 Faiss를 사용함질문을 입력하면 378개의 문서 중 가장 유사도가 높은 문서 4개를 출력필요한 패키지 다운로드 랭체인, 벡터 데이터베이스, 임베딩 모델, PDF 파일을 읽는 도구!pip install langchain langchain_openai c..