랭체인을 이용한 RAG

728x90

랭체인을 이용한 RAG 임베딩 파인튜닝 실습

임베딩과 검색기

임베딩(Embedding)

텍스트를 AI를 이용해 숫자, 특히 벡터로 변환하는 것이 임베딩이다.
여기서 벡터란 숫자들이 나열된 형태를 의미하고 있다.
- '사과' -> 단어 임베딩 -> 벡터 : [0.12, 0.34, 0.75, -0.12]
- '안녕하세요' -> 문장 임베딩 -> 벡터 : [0.57, 0.25, 0.85, 3.24]
- '서울 청년 정책이 ... ' -> 문장 임베딩 -> 벡터 : [0.54, 0.84, 0.28, 0.59]
  - 임베딩 지나는것이 벡터로 변환하는 과정임
임베딩 모델은 직접 공개된 모델을 다운로드하여 사용하는 것과 API로 제공받는 것 총 두 가지가 존재
공개된 모델을 다운로드 하여 사용하는 경우 '보안', '직접 도메인에 맞게 학습하여 성능 최적화' 등 이유가 있다.

임베딩 모델 (공개 모델 vs API로 사용)

임베딩을 하는 이유

임베딩 벡터는 유사도를 구할 수 있음

예시로 6개의 텍스트를 전부 임베딩(Embedding)한 후, '아무것도 안 먹었더니 꼬르륵 소리가 나네'라는 임의의 검색어가 들어오면 임베딩 유사도 계산을 진행해 보면 아래와 같다.

RAG(Retrieval-Augmented Generation)

•  R(Retrieval): 검색
•  A(Augemented): 증강되었다
•  G(Generation): 생성한다

RAG: 검색으로 증강된 답변을 생성한다. 즉, LLM의 지식에 외부의 지식을 추가하여 답변하는 것.

RAG 에서는 사용자가 질문을 던지면 질문과 연관되어져 있는 문서들을 찾아낸다 (즉, 검색기가 존재한다는 것)

검색 결과를 바탕으로 LLM에게 질문에 대한 답변을 요구 하는 것이다.

검색된 내용을 바탕으로 '답변' 하므로 내 데이터만을 이용해 답변하는 챗봇을 구현이 가능하다.

이를 통해 챗봇이 거짓말하는 현상인 '할루시네이션'을 급감 할 수 있는 효과를 지닌다.

임베딩을 이용하여 검색기를 구현한다는 것은 기존 문서들의 임베딩을 보관할 장소가 필요하게 된다.

이때 이용할 수 있는 것이 벡터 데이터 베이스이다.

Vector Database

벡터 데이터베이스가 좋은 점

갖고 있는 데이터가 수천, 수만 건 정도라면 큰 차이가 없을 수 있음. (대부분의 경우 여기에 속함)
- 밀버스는 은근 장애가 많이 발생한다.
- 수천, 수억 단위의 문서를 백업, 재배치, 재저장을 빈번하게 하는 상황에서는 Qdrant가 가장 안정적이었다. 따라서 10만에서 1000만 이내의 문서라면 Qdrant 추천
- Chroma 와 Pinecone 은 튜토리얼 용으로 많이 사용되기 때문에 아래 통계에서 사용량이 많은 것으로 추정된다.
- 프로덕션에서는 FALSS가 많이 사용되며, 배치성 추천작업등이 있고 수억-수십억 이라면 FALSS를 추천한다.

728x90

Astero블로그