Facebook

073. RoBERTa — BERT 학습 방식 개선

RoBERTa(2019)는 BERT 아키텍처를 바꾸지 않고 학습 방식만 개선해 성능을 크게 높였다. NSP 제거, 더 많은 데이터, 더 큰 배치, 동적 마스킹이 핵심이다. ‘좋은 사전학습 레시피’가 아키텍처만큼 중요하다는 것을 보여줬다.

DETR(2020)은 트랜스포머를 객체 탐지에 처음 적용한 모델이다. NMS 같은 수작업 후처리 없이 이미지에서 객체를 End-to-End로 탐지한다. 헝가리안 매칭으로 예측과 정답을 1대1로 연결해 중복 탐지 문제를 해결했다.