“야 너두 RAG 완전 정복 할 수 있어!”
데이터의 바다에서 보물을 찾는 것처럼, Retrieval Augmented Generation(RAG)는 당신이 가진 데이터로부터 필요한 정보를 찾아내는 강력한 도구입니다. 다양한 소스에서 수집된 데이터는 검색이 용이하도록 전략적으로 청킹합니다. 청킹 데이터는 원하는 답을 찾을 수 있도록 검색엔진에 색인화 합니다. 그리고 LLM에 적절한 프롬프트를 사용하여 조회된 정보들로부터 정확한 결과를 추출하는 마법 같은 과정을 만듭니다. 마지막으로, 이런 일련의 과정을 App으로 빠르고 쉽게 생성, 테스트, 배포할 수 있는 LLMOps를 위한 방법을 실제 데이터와 데모를 기반으로 소개합니다. 이 세션을 통해 당신도 RAG 마스터가 되어보세요.
2시간 이내에 다룰 수 있는 범위는 다 다뤄 보는게 목표. 설명이랑 실습이 자연스럽게 연계되어야 함. 시간 관계를 고려해서 실습 데모는 영상으로 미리 만들어서 재생하는 것으로 시간 맞춤.
아젠다
- RAG가 필요한 이유
- RAG 구성하는 방법
- 단계별 실전 데모
- 데이터 수집 및 색인화
- 샘플 데이터 수집
- 색인화
- 테스트
- 심화 과정 - 데이터에 따라서 접근 방법: https://github.com/HyounsooKim/azure-openai-samples-kr/blob/main/quick_start/09_LLM_rag_demo.ipynb
- 외부 사이트로부터 검색 방법 - Bing Search API 활용
- 데이터가 있을 때 색인화 방법
- PDF로부터 색인화 방법
- LLMOps
- 서비스 만들기
- 대량 테스트
- 심화 과정 - DevOps
- 도커 생성
- 도커 배포
- 원모어 씽
- 청킹 전략!
- 살아있는 정보를 기반으로 실시간 업데이트는 어떻게?
- 데이터 수집 및 색인화
시나리오
1안. Wikipedia의 내용을 기반으로 질의 응답하는 챗봇 서비스
- Embedding 되어져 있는 데이터 기반으로 시작하는 방법
- 데이터 업로드
- 색인화 (키워드 + 벡터 = 하이브리드)
- 조회 및 검색 On your data
- 나만의 LLM API를 만드는 방법
- App으로 활용하는 방법
2안. Founders Hub의 내용을 기반으로 질의 응답하는 챗봇 서비스 (외부 사이트)
- Prompt Flow를 통한 대량 데이터 수집
- Few-shot을 통한 데이터 청킹
3안. PDF가 있을 때,
- Document intelligence