분류 전체보기(3)
-
구현 일지 - INPAINT
Inpainting은 주어진 이미지의 특정 부분을 사실성을 훼손하지 않고 재구성하는 과정입니다.본 포스팅에서는 노이즈 제거 확산 모델(denoising diffusion model)을 사용하여 Inpainting하는 방법을 설명하겠습니다.Diffusion model에서는 학습이 완료된 후, 새로운 이미지는 샘플링 과정을 통해 생성됩니다. 이 과정에서는 Random noise를 반복적으로 제거하여 최종적으로 실제와 유사한 이미지를 얻게 됩니다. Inpainting을 위해서는 Sampling pipeline을 커스터마이징해야 합니다. (이 글을 쓴 이유!)여기에서는 전체 확산 모델 과정을 설명하지 않고 수정 사항만 설명합니다. 전체 과정을 이해하려면 Denoising Diffusion Probabilisti..
2024.05.25 -
[논문 리뷰] Vision Transformers need registers
트랜스포머 모델을 지도 학습(supervised) 또는 자율 학습(self-supervised) 방식으로 학습시킬 때, 마지막 어텐션 레이어는 자연스럽게 이미지의 의미적으로 일관된 부분들에 집중합니다. 이는 아래와 같이 해석 가능한 어텐션 맵을 만들기도 합니다. 새로운 unsupervised detection 알고리즘들은 일반적으로 이러한 어텐션 맵을 사용하여 객체를 탐지합니다.그런데, Attention map을 이용한 탐지 알고리즘을 사용할 때 DINOv1으로 학습된 모델이 DINOv2에 비해 더 잘 작동한다는 것을 발견되었습니다.그 이유는 DINOv2에는 대략 10배 더 높은 놈(norm)을 가진 토큰들이 있다는 것이었습니다. 이러한 토큰들은 전체 토큰의 극히 일부였습니다.(약 2%)이러한 높은 놈의..
2024.05.15 -
[바루다 개발 일지] Inference 효율화 (vLLM)
대규모 언어 모델(LLMs)은 프로그래밍 보조 도구와 범용 챗봇 같은 새로운 응용 프로그램을 가능하게 해서 일상 생활과 경력에 점점 더 큰 영향을 미치고 있습니다. 그러나 이러한 응용 프로그램의 작동은 GPU와 같은 상당한 하드웨어 가속 요구 사항 때문에 상당한 비용이 듭니다. 최근의 연구에서는 LLM 요청을 처리하는 것이 전통적인 키워드 검색보다 최대 10배 비싸다고 볼 수 있습니다. 따라서 LLM 서빙 시스템의 처리량을 높여 요청당 비용을 최소화할 필요성이 점점 늘고 있습니다. 대형 언어 모델이 돌아가길 기다리는 우리 모습.. 대규모 언어 모델(LLMs)을 높은 처리량으로 서빙하기 위해서는 충분히 많은 요청을 한 번에 배치해야 하며, 기존 시스템도 높은 성능을 위해선 이러한 능력이 필요합니다. 그러나..
2023.09.18