본문 바로가기

728x90

AI

(36)
RAG를 위한 파인 튜닝 데이터셋 실습 EDA RAG를 위한 파인 튜닝 데이터셋 실습https://huggingface.co/datasets/iamjoon/klue-mrc-ko-rag-dataset iamjoon/klue-mrc-ko-rag-dataset · Datasets at Hugging Face[ "블리자드 엔터테인먼트(Blizzard Entertainment, Inc.)의 인기 디지털 카드 게임 하스스톤(Hearthstone®) e스포츠를 대표하는 세계 최고의 선수들 여덟 명이 챔피언의 전당에 이름을 올리기 위해 벌이는huggingface.copip install datasetsimport numpy as npimport matplotlib.pyplot as pltfrom datasets import load_datasetdataset = ..
Fine-tuning For RAG RAFT: Adapting Language Model to Domain Specific RAGUC Berkeley 논문사용자의 질문과 연관된 문서와 정답과 연관이 없는 문서를 섞어서 검색 결과로 가정하고 데이터셋을 구축이 때 연관이 없는 문서들을 negative documents라고 하며 학습에 도움을 주게 된다.이는 Fine-tuning 시 답변과 관련 없는 정보를 식별하는 능력을 향상시키기 때문이다. 파인 튜닝 전, 후 LLAMA2의 RAG 성능 차이는 매우 크게 나는 것을 볼 수 있음LLAMA2-7B를 파인 튜닝한 것이 GPT-3.5 에 RAG 를 한 것보다 성능이 더 좋음  원문을 인용하여 답변하게 하면 성능 Up원문을 인용해야 하므로 할루시네이션 억제일종의 Chain of Thought 프롬프트..
MultipleNegativesRankingLoss를 활용한 임베딩 파인 튜닝 MultipleNegativesRankingLoss는 문장 임베딩 모델을 파인 튜닝하는 데 매우 효과적인 손실 함수로. 이 방법에 대해 더 자세히 공부해 보겠습니다. 손실 함수(Loss function): 오차를 계산하는 함수로. AI를 학습할 때는 학습 중인 AI의 예측값과 실제 정답간의 오차를 계산해서 해당 오차를 줄이는 식으로 AI 모델을 학습합니다. 포지티브 샘플과 네거티브 샘플포지티브 샘플(Positive Sample): 의미적으로 관련이 있는 문장 쌍을 의미합니다.예: (문서1: "서울의 인구는?", 문서2: "서울의 인구는 약 970만 명입니다.")네거티브 샘플(Negative Sample): 의미적으로 관련이 없거나 관련성이 낮은 문장 쌍을 의미합니다.예: (문서1: "서울의 인구는?", ..
RAG 실습 이후 + LLM 추천 위에서 RAG 실습과, 서울 청년 정책 챗봇을 만들어보면서 관련 내용들을 학습했는데, 추가적으로 더 성장하기 위해서는 어떤것을을 학습해야할지 생각해 보았다. 멀티모달 RAG에이전트 RAG (멀티턴 Function Calling / ReACT Agent / Plan and Execute Agent / Corrective RAG 등)키워드 기반 검색 : BM-25 와 앙상블 리트리버 (바이인코더) 임베딩 파인튜닝 (+ 검색 성능 Metric (NDGC, MAP 등 ...))크로스인코더 임베딩 모델 파인튜닝을 이용한 ReRankingRAG 답변 성능 향상을 위한 LLM 파인 튜닝 (LLaMA, Qwen, Gemma) 위 모든 것들을 구현하기 위한 Langchain, LangGraph, Huggingface T..
RAG 서울 청년 정책 챗봇 실습 여러 문서에서 찾아서 답변하는 챗봇 만들기!pip install -q langchain langchain-openai openai tiktoken chromadb langchain-community!wget https://github.com/chatgpt-kr/chatgpt-api-tutorial/raw/main/ch05/data.zip!unzip dataArchive: data.zip inflating: 1.txt inflating: 10.txt inflating: 11.txt inflating: 12.txt inflating: 13.txt inflating: 14.txt inflating: 15.txt inflating: 16.txt inflating: 17.txt inflating: 18.txt i..
벡터 스토어와 RAG 실습 우선적으로 실습에 앞서 해야할 일PDF 파일을 다운로드Langchain의 PyPDFLoader로 PDF 파일을 읽어서 페이지 별로 저장.예를 들어 368페이지의 PDF 파일이라면 368개의 문서를 얻게 된다.368개의 문서들은 길이가 제각각입니다. 특정 길이(여기서는 2000)로 제한하고 더 잘라준다.총 378개의 문서가 나오게 됩니다. 378개의 문서를 전부 임베딩(Embedding)하여 벡터 데이터베이스에 적재한다.벡터 데이터베이스는 Chroma 또는 Faiss를 사용함질문을 입력하면 378개의 문서 중 가장 유사도가 높은 문서 4개를 출력필요한 패키지 다운로드 랭체인, 벡터 데이터베이스, 임베딩 모델, PDF 파일을 읽는 도구!pip install langchain langchain_openai c..
랭체인을 이용한 RAG 랭체인을 이용한 RAG 임베딩 파인튜닝 실습 임베딩과 검색기 임베딩(Embedding)텍스트를 AI를 이용해 숫자, 특히 벡터로 변환하는 것이 임베딩이다.여기서 벡터란 숫자들이 나열된 형태를 의미하고 있다.'사과' -> 단어 임베딩 -> 벡터 : [0.12, 0.34, 0.75, -0.12]'안녕하세요' -> 문장 임베딩 -> 벡터 : [0.57, 0.25, 0.85, 3.24]'서울 청년 정책이 ... ' -> 문장 임베딩 -> 벡터 : [0.54, 0.84, 0.28, 0.59] 임베딩 지나는것이 벡터로 변환하는 과정임임베딩 모델은 직접 공개된 모델을 다운로드하여 사용하는 것과 API로 제공받는 것 총 두 가지가 존재공개된 모델을 다운로드 하여 사용하는 경우 '보안', '직접 도메인에 맞게 학습하여 ..
Deep Learning GPU and CPU 딥러닝 모델은 수많은 파라미터와 복잡한 연산을 포함하고 있기 때문에, 이를 처리하는 데 막대한 연산 자원이 요구된다. 특히 딥러닝의 핵심 작업인 행렬 연산(Matrix Operations)은 매우 방대한 양의 데이터를 동시에 처리해야 하는데, 이러한 작업을 효율적으로 처리하기 위해 병렬 연산의 개념이 필수적이다. GPU는 수천 개 이상의 코어를 통해 수많은 연산을 동시에 처리할 수 있는 병렬 처리 능력을 가지고 있어, 딥러닝 모델 학습 시 CPU에 비해 훨씬 더 빠르게 연산을 수행할 수 있다. 반면 CPU는 소수의 고성능 코어로 순차적인 작업에 강점을 가지지만, 병렬 연산의 효율성은 GPU에 미치지 못한다. 이를 비유하자면, CPU는 그림을 그릴 때 풍선을 하나씩 던져 그림을 완성하는 방식이라면, GPU..
Deep Learning 텐서(Tensor) 텐서(Tensor) 텐서(tensor)는 배열(array)이나 행렬(matrix)과 매우 유사한 특수한 자료구조이다.PyTorch에서는 텐서를 사용하여 모델의 입력(input)과 출력(output), 그리고 모델의 매개변수들을 부호화(encode)한다. 텐서는 GPU나 다른 하드웨어 가속기에서 실행할 수 있다는 점만 제외하면 NumPy의 ndarray와 유사한데, 텐서는 또한 뒤에서 살펴볼 자동 미분(automatic differentiation)에 최적화되어 있으므로, ndarray에 익숙하다면 Tensor API를 바로 사용할 수 있을 것이다.  import torchimport numpy as np텐서(tensor) 초기화이번 섹션에서는 다양한 방법을 이용하여 tensor를 초기화를 진행해보려고 한..
Deep Learning 개론 Vision의 역사는 오래돼었다. 아래 이미지는 Evolution's Big Bang 이라는 제목과 함께 5억 4300만년 전 지구의 생명체를 보여주고 있고, 이 시기는 '캄브리아기 대폭발'로 알려진 시기로, 지구 역사에서 생명체의 다양성이 급격히 증가한 시점이다. 이런 현상이 일어난 이류로 오스트레일리아의 동물학자가 가장 설득력 있는 의견을 내놓았는데, 이 시기에 동물에게 처음 시각이 생겼다라는 주장이었다. 동물에게 시각이 주어짐에 따라 동물들이 능동적으로 살게 되었고(포식자, 피식자), 동물들은 생존을 위해 빠르게 진화한 것이다. 이후 시각은 점점 중요한 감각 기관으로 발전하였다. 특히 지능이 높은 동물인 인간은 시각을 가장 큰 감각 시스템으로 가지고 있다. 이후 시각은 점점 중요한 감각 기관으로 발..
Agents Are Not Enough, Integration of Agentic AI with 6G Networks for Mission-CriticalApplications: Use-case and Challenges 논문 리뷰 Agents Are Not Enough논문 리뷰 : Agents Are Not Enough (http://www.arxiv.org/pdf/2412.16241)Chirag Shah, Ryen W. White에이전트는 특정 작업을 수행하기 위해 사용자 입력을 받아 행동하는 자율적 시스템이나, 확장성과 안정성에 있어 이들은 충분하지 않음사용자 개인화를 높이고, 신뢰성을 구축하며, 복잡한 작업을 처리할 수 있는 시스템을 구성해야 함에이전트, 심, 어시스턴트를 포함한 새로운 에코 시스템을 통해 효과적이고 지속 가능한 에이전트를 실현 논문 개요현재의 단순 정의 에이전트의 사용자를 대신하여 작업을 수행하는 과정에서 어떠한 한계를 가지고 있는지 설명과거 에이전트의 발전사를 정리하고, 각 시대의 기술적 한계와 실패를 분..
AI Agent 와 AAI(Agentic AI) 세계적인 IT 리서치 회사 Gartner는 2025년 10대 전략 기준 트렌드 중 1위로 Agentic AI를 선정 했다.기업들이 Gen AI, AI Agent를 더 자주 도입하고, 이로 인해 프로세스와 워크플로가 대규모로 통합되었고, 산업 전반에 걸쳐서 Agentic AI의 도입이 가속화 될 것으로 예상하고 있다. AI Agent 시장2024년 기준 AI Agent 시장 규모는 51억 달러, 2035년까지 AI Agent 시장 규모는 216.8 ~ 471억 달러 전망연간 매출 100억 달러 이상의 대기업들은 45%가 이미 AI 에이전트를 도입하고 있다.전반적인 산업 분야에서 AI Agent를 적극적으로 도입중이다. AI Agent란?확경을 인식하고, 의사결정을 내리며, 목표를 달성하기 위해 자율적으로 ..

728x90