077. 청킹 전략 — RAG를 위한 텍스트 분할
RAG 파이프라인에서 청킹은 긴 문서를 임베딩 가능한 크기의 조각으로 나누는 과정이다. 청킹 방식이 검색 품질을 직접 결정한다. 고정 크기, 재귀적 분할, 시맨틱 청킹까지 각 방식의 원리와 트레이드오프를 다룬다.
RAG 파이프라인에서 청킹은 긴 문서를 임베딩 가능한 크기의 조각으로 나누는 과정이다. 청킹 방식이 검색 품질을 직접 결정한다. 고정 크기, 재귀적 분할, 시맨틱 청킹까지 각 방식의 원리와 트레이드오프를 다룬다.
RAG(Retrieval-Augmented Generation)는 LLM이 답변할 때 외부 지식을 검색해 컨텍스트로 주입하는 패턴이다. 모델 가중치에 없는 최신 정보나 도메인 특화 지식을 활용하고 환각을 줄인다. 인덱싱, 검색, 생성 세 단계와 각 단계의 개선 기법을 다룬다.