084. BLIP — 이미지 캡셔닝과 VQA
BLIP(2022)은 노이즈가 많은 웹 이미지-텍스트 쌍을 정제해 학습하는 부트스트래핑 방식을 도입했다. 이미지 이해(Image-Text Matching)와 이미지-텍스트 생성(Captioning)을 통합 모델 안에서 처리한다.
BLIP(2022)은 노이즈가 많은 웹 이미지-텍스트 쌍을 정제해 학습하는 부트스트래핑 방식을 도입했다. 이미지 이해(Image-Text Matching)와 이미지-텍스트 생성(Captioning)을 통합 모델 안에서 처리한다.