067. AI 모델 로드맵 — 발전 순서 목록
딥러닝 모델들의 발표 연도 기준 학습 로드맵. CNN 발전사부터 멀티모달, 추론 최적화, 에이전트까지 순서대로 정리한다.
딥러닝 모델들의 발표 연도 기준 학습 로드맵. CNN 발전사부터 멀티모달, 추론 최적화, 에이전트까지 순서대로 정리한다.
CLIP(2021)은 4억 개의 이미지-텍스트 쌍으로 텍스트와 이미지를 같은 임베딩 공간에 정렬한다. 별도 파인튜닝 없이 새로운 분류 태스크에 적용하는 Zero-Shot 분류가 가능하고, 텍스트로 이미지를 검색하거나 이미지로 텍스트를 검색하는 크로스 모달 검색의 기반이 된다.
BLIP(2022)은 노이즈가 많은 웹 이미지-텍스트 쌍을 정제해 학습하는 부트스트래핑 방식을 도입했다. 이미지 이해(Image-Text Matching)와 이미지-텍스트 생성(Captioning)을 통합 모델 안에서 처리한다.
Flamingo(2022)는 사전학습된 비전 모델과 LLM을 고정하고 중간 연결 레이어만 학습해 강력한 멀티모달 Few-Shot 능력을 보여준다. 프롬프트에 이미지-텍스트 예시를 몇 개 제공하면 새로운 비전 태스크에 즉시 적응한다.
BLIP-2(2023)는 Q-Former라는 경량 쿼리 트랜스포머로 고정된 이미지 인코더와 고정된 LLM을 연결한다. 두 모델을 재학습 없이 연결하므로 학습 비용이 낮고, 더 강력한 LLM으로 교체하면 멀티모달 능력도 함께 향상된다.
LLaVA(2023)는 CLIP 비전 인코더와 LLaMA를 선형 투영 레이어 하나로 연결한 오픈소스 멀티모달 모델이다. GPT-4가 생성한 158K 시각 지시 데이터로 학습해 GPT-4V에 가까운 시각 추론 능력을 보인다.