083. CLIP — 텍스트-이미지 공동 임베딩
CLIP(2021)은 4억 개의 이미지-텍스트 쌍으로 텍스트와 이미지를 같은 임베딩 공간에 정렬한다. 별도 파인튜닝 없이 새로운 분류 태스크에 적용하는 Zero-Shot 분류가 가능하고, 텍스트로 이미지를 검색하거나 이미지로 텍스트를 검색하는 크로스 모달 검색의 기반이 된다.
CLIP(2021)은 4억 개의 이미지-텍스트 쌍으로 텍스트와 이미지를 같은 임베딩 공간에 정렬한다. 별도 파인튜닝 없이 새로운 분류 태스크에 적용하는 Zero-Shot 분류가 가능하고, 텍스트로 이미지를 검색하거나 이미지로 텍스트를 검색하는 크로스 모달 검색의 기반이 된다.
SAM(2023)은 Meta AI가 발표한 범용 이미지 세그멘테이션 모델이다. 점, 박스, 텍스트 등 다양한 프롬프트로 이미지의 어떤 객체든 마스크를 생성한다. 11억 개 마스크로 학습된 파운데이션 모델로, 파인튜닝 없이 대부분의 세그멘테이션 태스크에 적용된다.