[논문 리뷰] Vision Transformers need registers
트랜스포머 모델을 지도 학습(supervised) 또는 자율 학습(self-supervised) 방식으로 학습시킬 때, 마지막 어텐션 레이어는 자연스럽게 이미지의 의미적으로 일관된 부분들에 집중합니다. 이는 아래와 같이 해석 가능한 어텐션 맵을 만들기도 합니다. 새로운 unsupervised detection 알고리즘들은 일반적으로 이러한 어텐션 맵을 사용하여 객체를 탐지합니다.그런데, Attention map을 이용한 탐지 알고리즘을 사용할 때 DINOv1으로 학습된 모델이 DINOv2에 비해 더 잘 작동한다는 것을 발견되었습니다.그 이유는 DINOv2에는 대략 10배 더 높은 놈(norm)을 가진 토큰들이 있다는 것이었습니다. 이러한 토큰들은 전체 토큰의 극히 일부였습니다.(약 2%)이러한 높은 놈의..
2024.05.15