Self-Supervised

075. ViT — Vision Transformer

ViT(2020)는 이미지를 패치로 나눠 트랜스포머에 입력하는 방식으로 CNN 없이 이미지를 처리한다. 충분히 큰 데이터셋으로 학습하면 ResNet을 능가한다. 이후 비전 모델의 패러다임을 CNN에서 트랜스포머로 전환하는 계기가 됐다.

DINO(2021)는 레이블 없이 ViT를 학습하는 자기지도학습 방법이다. 학생-교사 구조에서 이미지의 다른 크롭이 같은 표현을 갖도록 학습한다. 레이블 없이도 의미 있는 시각적 특징을 학습하고, 어텐션 맵이 자연스럽게 세그멘테이션 마스크를 형성한다.

DINOv2(2023)는 1억 4200만 장의 정제된 이미지로 학습한 자기지도 비전 모델이다. 파인튜닝 없이 깊이 추정, 세그멘테이션, 분류, 검색 등 다양한 비전 태스크에 직접 사용할 수 있는 범용 비전 특징 추출기다.