073. RoBERTa — BERT 학습 방식 개선
RoBERTa(2019)는 BERT 아키텍처를 바꾸지 않고 학습 방식만 개선해 성능을 크게 높였다. NSP 제거, 더 많은 데이터, 더 큰 배치, 동적 마스킹이 핵심이다. ‘좋은 사전학습 레시피’가 아키텍처만큼 중요하다는 것을 보여줬다.
RoBERTa(2019)는 BERT 아키텍처를 바꾸지 않고 학습 방식만 개선해 성능을 크게 높였다. NSP 제거, 더 많은 데이터, 더 큰 배치, 동적 마스킹이 핵심이다. ‘좋은 사전학습 레시피’가 아키텍처만큼 중요하다는 것을 보여줬다.
DETR(2020)은 트랜스포머를 객체 탐지에 처음 적용한 모델이다. NMS 같은 수작업 후처리 없이 이미지에서 객체를 End-to-End로 탐지한다. 헝가리안 매칭으로 예측과 정답을 1대1로 연결해 중복 탐지 문제를 해결했다.
ViT(2020)는 이미지를 패치로 나눠 트랜스포머에 입력하는 방식으로 CNN 없이 이미지를 처리한다. 충분히 큰 데이터셋으로 학습하면 ResNet을 능가한다. 이후 비전 모델의 패러다임을 CNN에서 트랜스포머로 전환하는 계기가 됐다.
ColBERT(2020)는 쿼리와 문서를 각각 토큰 단위 벡터로 인코딩하고, 검색 시 MaxSim 연산으로 유사도를 계산하는 Late Interaction 방식을 제안했다. Bi-Encoder의 속도와 Cross-Encoder의 정확도 사이 균형을 잡는다.
RAG 파이프라인에서 청킹은 긴 문서를 임베딩 가능한 크기의 조각으로 나누는 과정이다. 청킹 방식이 검색 품질을 직접 결정한다. 고정 크기, 재귀적 분할, 시맨틱 청킹까지 각 방식의 원리와 트레이드오프를 다룬다.
벡터 DB는 고차원 임베딩 벡터를 저장하고 근사 최근접 이웃(ANN) 검색을 빠르게 수행하는 데이터베이스다. Qdrant, pgvector, Pinecone 세 가지 대표 선택지의 구조, 인덱싱 알고리즘, 트레이드오프를 다룬다.
벡터 검색은 의미 유사도를 잘 포착하지만 정확한 키워드 매칭에 약하다. BM25는 반대다. 두 방식을 결합한 하이브리드 검색이 실무 RAG에서 더 안정적인 성능을 낸다. RRF로 두 순위를 결합하고 Cross-Encoder로 재정렬하는 전체 파이프라인을 다룬다.
RAG(Retrieval-Augmented Generation)는 LLM이 답변할 때 외부 지식을 검색해 컨텍스트로 주입하는 패턴이다. 모델 가중치에 없는 최신 정보나 도메인 특화 지식을 활용하고 환각을 줄인다. 인덱싱, 검색, 생성 세 단계와 각 단계의 개선 기법을 다룬다.
MTEB(Massive Text Embedding Benchmark)는 56개 데이터셋, 8개 태스크로 임베딩 모델을 종합 평가하는 벤치마크다. 모델 선택 시 전체 평균이 아니라 실제 사용 태스크와 언어에 맞는 점수를 봐야 한다.
DINO(2021)는 레이블 없이 ViT를 학습하는 자기지도학습 방법이다. 학생-교사 구조에서 이미지의 다른 크롭이 같은 표현을 갖도록 학습한다. 레이블 없이도 의미 있는 시각적 특징을 학습하고, 어텐션 맵이 자연스럽게 세그멘테이션 마스크를 형성한다.