60Taehoon Kim2.png Taehoon Kim 2022.06.07

[CVPR 2022] Large Vision-Language Model: What’s Next?

2020년 OpenAI가 발표한 GPT-3[1]의 등장 이후로 NLP 분야에서는 더 많은 데이터와 인프라를 확보해서 더 큰 모델을 학습시키는, 이른바 Large Scale Model Training이 가장 큰 관심사로 떠올랐습니다. 이 경우 모델의 크기는 모델의 파라미터 수에 의해 결정됩니다. 모델 내에서 각 파라미터는 저장 공간과 같은 역할을 하므로, 일반적으로 파라미터의 수가 많을수록 모델은 더욱 다양하고 많은 정보를 학습할 수 있습니다. 그러나 모델의 크기가 커질수록 학습에 필요한 데이터와 GPU의 개수는 늘어나고, 성공 확률은 떨어집니다. 그래서 각 연구 그룹에서 공개하는 Large Language Model (LLM)의 크기는 곧 해당 그룹의 기술력을 나타내는 척도처럼 여겨집니다.

 

Phase 1: Zero-shot text-to-image generation

GPT-3의 여파가 채 가시지 않은 2020년 1월, OpenAI는 자사 블로그를 통해 또 하나의 모델을 공개합니다. 주어진 텍스트로부터 이미지를 생성하는 DALL-E[2]라는 모델입니다. DALL-E는 1,200억 개의 파라미터를 가진 Transformer 모델로 2.5억 장의 이미지와 그에 맞는 텍스트 쌍을 학습하였습니다. 이처럼 DALL-E는 학습에 사용된 데이터의 양과 모델의 크기에서 Text-to-image generation 분야의 기존 모델들과 차이가 큽니다.

(그림1) DALL-E[2]로 생성한 이미지. 아보카도 모양의 의자(왼쪽)와 딸기 모양의 주전자(오른쪽).


또 DALL-E는 학습에 사용한 데이터와 유사한 이미지만 생성할 수 있는 기존 모델과 다르게, 그림 1의 “아보카도 모양의 의자”나 “딸기 모양의 주전자”와 같이 이전에 학습하지 않았던 이미지도 생성하는 zero-shot text-to-image generation이 가능합니다. 나아가 입력 텍스트에 따른 이미지 생성 정확도를 높이기 위해, DALL-E는 하나의 텍스트에 대하여 총 512개의 이미지를 생성하고, 그중 텍스트와 가장 높은 유사도를 보이는 이미지를 최종적으로 선택합니다. 이때 이미지와 텍스트 간 유사도 분석에는 OpenAI가 함께 공개한 모델인 CLIP[3]을 사용했습니다.

 

(그림2) CLIP[3]의 개요. Contrastive Learning 기반으로 학습된 CLIP은 이미지와 텍스트 간 유사도를 비교하는 다양한 작업에 활용될 수 있음.


CLIP 역시 4억 장의 이미지와 그에 맞는 텍스트 쌍으로 학습된 모델입니다. 그림 2와 같이 묶음으로 주어진 이미지와 텍스트의 짝을 맞추는 방식으로 학습한 모델인 CLIP을 사용하면 이미지와 텍스트의 유사도를 수치로 나타낼 수 있습니다. 어마어마한 양의 데이터와 컴퓨팅 인프라를 동원해 학습된 DALL-E와 CLIP의 등장은 NLP 분야에서 주로 진행되던 Large Scale Model Training을 Vision-Language 분야로 가져오게 됩니다.

 

Phase 2: VQ-VAE (Vector Quantized-Variational AutoEncoder) + Transformer

DALL-E[2]는 기본적으로 Large Language Model (LLM)의 대표 격인 GPT-3[1]를 기반으로 하고 있습니다. GPT-3는 decoder-only Transformer로, 입력된 문장의 뒤에 나올 문장을 한 단어씩 차례대로 예측하는 모델입니다. 텍스트에 대해서만 동작하던 이 모델을 이미지에 대해서도 동작하게 하기 위해, DALL-E에서는 VQ-VAE [4]를 추가로 사용합니다.

 

(그림3) VQ-VAE를 이용한 이미지 압축 및 복원 과정. Encoder(왼쪽)를 통과하며 압축된 이미지는 Vector Quantization 과정 (가운데)을 거쳐 Decoder(오른쪽)로 전달됨. 이후 Decoder는 압축된 이미지를 다시 원래 크기로 되돌림.


VQ-VAE는 이미지를 압축하는 encoder와 decoder로 구성된 VAE의 일종입니다. 기존 VAE와 VQ-VAE의 차이는 encoder로 압축한 정보에 Vector Quantization(VQ)을 추가로 적용한다는 점입니다. Vector Quantization 이란, 그림3과 같이 encoder로 압축된 정보를 일정한 크기의 token으로 쪼개고, 각각을 codebook에 저장된 token들 중 가장 유사한 token으로 바꾸는 과정입니다. 텍스트에 비유해서 설명하자면, 다양한 필체로 작성한 문장을 단어(token)별로 쪼개고, 각 단어(token)를 사전(codebook)에 수록된 단어와 비교해가며 하나의 통일된 폰트로 인쇄하는 과정과 유사합니다.

정리하자면, DALL-E는 VQ-VAE를 사용하여 이미지를 텍스트와 같은 형태로 변경한 뒤 이를 텍스트와 함께 Transformer에 넣어 학습시키는 모델입니다. 하는 일은 다르지만 구조 자체는 NLP 분야의 Large Language Model (LLM)을 대표하는 GPT-3와 유사합니다. 이후 등장하는 연구들은 주로 VQ-VAE + Transformer라는 큰 틀 안에서 이를 개선하는 방향으로 진행되게 됩니다.

2021년에는 DALL-E 대비 10%의 학습 데이터와 30%의 파라미터 수를 사용한 CogView[5]를 시작으로, 더 적은 양의 데이터와 파라미터 수로도 DALL-E를 능가하는 결과를 도출한 연구 결과가 여럿 등장하였습니다. 컴퓨터 비전 분야 최고 국제 학술 대회인 2022 CVPR에서도 관련 연구를 찾아볼 수 있는데, LG AI 연구원에서 발표한 L-Verse[6]가 그 가운데 하나입니다.

 

(그림4) CVPR 2022에서 발표 예정인 LG AI연구원의 L-Verse. DALL-E 등 기존 모델과는 달리 text-to-image, image-to-text를 모두 수행할 수 있다.


6월 24일 열리는 CVPR 2022 오럴 세션 (Oral 4.1.3)에서 발표될 L-Verse의 가장 큰 특징은 그림 4와 같이 text-to-image와 image-to-text generation이 모두 가능하다는 점입니다. 이 가운데 Image-to-text generation은 입력으로 주어진 이미지를 설명하는 image captioning 분야에 활용될 수 있습니다. L-Verse는 DALL-E 대비 0.2%의 학습 데이터와 5%의 파라미터 수로도 학습할 수 있으며, text-to-image, image-to-text 두 분야 모두에서 기존 모델 대비 뛰어난 성능을 달성하였습니다. L-Verse에 관한 더 자세한 내용은 이전 포스팅논문을 참고해 주세요.

 

Phase 3: DDPM[7]+ CLIP[3]

아직 CVPR 2022의 열기가 타오르기도 전이지만, DALL-E로 시작된 Large Vision-Language Model (LVLM)에 관한 연구는 이미 새로운 국면에 접어들었습니다. 기존 VQ-VAE + Transformer 형태는 모델 구조를 크게 변경하지 않고도 학습이 가능하다는 장점이 있지만, pixel로 이루어진 2차원의 이미지를 문장과 같은 형태로 변경하는 과정에서 발생하는 정보 손실을 피할 수는 없습니다. 또한 CLIP이 학습한 이미지와 텍스트 간의 연관성을 생성 과정에 그대로 반영하지 못하고 단순히 유사도 계산에만 사용한다는 점도 기존 DALL-E의 한계입니다.

이에 2021년 말 OpenAI는 새로운 Large Vision-Language Model (LVSM)인 GLIDE[8]를 발표했습니다. GLIDE는 이미지 생성을 위해 Transformer 대신 Denoising Diffusion Probabilistic Model (DDPM)을 사용합니다. DDPM은 Generative Model 중에서도 가장 최신의 모델인데요, 그 작동 원리가 꽤나 독특합니다.

 

(그림5) Diffusion Process의 예시. 이미지에 일정 수준의 noise를 반복적으로 가하게 되면 결국에는 노이즈만 남은 이미지가 된다. Denoising Diffusion Probabilistic Model (DDPM) [7]모델은 이를 되돌리는 과정을 학습하게 된다. (출처)


DDPM에 대해서 최대한 간단하게 설명해보겠습니다. 잡티 없는 깨끗한 이미지에 그림 5와 같이 일정량의 noise를 여러 번 넣게 되면, 처음에는 원본 이미지와 큰 차이가 없지만 noise를 넣는 횟수가 많아질수록 원본 이미지는 그 형태를 점점 잃어가고, 결국에는 전체 이미지가 noise로 가득하게 됩니다. 이처럼 일정량의 noise를 여러 번 넣는 과정을 Diffusion Process라고 합니다. DDPM은 Diffusion Process를 반대로 수행하는 방법을 학습하는 모델입니다. Noise밖에 없는 이미지가 사실은 Diffusion Process에 의해 원본의 정보를 잃어버린 이미지라고 가정을 하고 이를 여러 step에 걸쳐 denoising 하는, 즉 노이즈를 제거하는 방법을 배우는 겁니다.

DDPM의 장점은 이와 같은 step-wise denoising 과정에 직접적으로 guidance를 줄 수 있다는 점입니다. GLIDE는 DDPM과 CLIP을 결합하여 입력으로 받은 텍스트에 해당하는 CLIP의 embedding을 가져와 이를 guidance로 사용합니다. 그 결과 512개의 샘플을 생성하고 이 중 하나를 골라야만 했던 DALL-E와는 달리, GLIDE는 한 번의 샘플링 과정만으로도 텍스트 내 정보가 잘 반영된 이미지를 생성할 수 있습니다. 이와 같은 DDPM + CLIP의 구조는 DALL-E2에도 적용되었습니다.

 

Show and Tell: What’s Next?

DALL-E가 공개된 지 벌써 1년 하고도 6개월의 시간이 흘렀습니다. 컴퓨터 비전 분야를 대표하는 국제 학술 대회인 CVPR 2022는 아직 시작도 하지 않았지만, Large Vision-Language Model (LVLM)의 발전 속도는 이미 학회의 일정을 뛰어넘은 것으로 보입니다.

OpenAI에서 가장 최근에 공개한 DALL-E 2[9]와 Google의 Imagen[10]을 봤을 때 현재 LVLM의 주류는 DDPM + CLIP (text encoder)이지만, NLP 분야에서 두각을 드러내고 있는 Transformer의 scalability를 봤을 때 아직 속단하기는 이릅니다.

Transformer의 파라미터 수를 1,750억, 3,000억, 6,000억 개 이상으로 늘려가며 인간의 언어를 학습시키는데 주력하는 Large Language Model (LLM) 연구와는 달리, 현재 LVLM에 관한 연구는 이미지와 텍스트 간의 관계를 잘 학습할 수 있는 구조를 찾는 데 초점이 맞춰져 있습니다. Phase 1, 2를 거쳐 가며 기존의 VQ-VAE + Transformer 구조의 한계를 발견했다면, Phase 3에 접어들어서는 이미지 생성에 더 최적화된 Denoising Diffusion Probabilistic Model (DDPM)을 활용하여 사람이 그린 듯한 수준의 이미지를 생성하는 단계까지 왔습니다.

 

(그림 6) Google의 Imagen[10](왼쪽) 과 OpenAI의 DALL-E 2[9](오른쪽) 비교. DALL-E 2 대비 Imagen이 입력 텍스트에 담긴 문자를 더 잘 생성함을 확인할 수 있다.


다만 여러 매체를 통해 공개되고 있는 DALL-E 2의 결과들을 봤을 때 생성된 이미지가 사실적이기는 하지만 입력으로 주어진 텍스트가 길어질수록 그 내용을 잘 반영하지 못하고, 특히 그림 6과 같이 글씨를 생성하는데 취약한 모습을 보여줍니다. 이는 CLIP의 text encoder 때문이라고 볼 수 있는데, 이를 해결하기 위해 최근 Google에서 발표한 새로운 LVLM인 Imagen[10]은 CLIP 대신 encoder-decoder 형태의 LLM인 T5[11]의 encoder를 사용합니다.

Imagen은 이를 통해 DALL-E 2 대비 훨씬 긴 입력 텍스트를 처리할 수 있으며, 그림 6에서 볼 수 있듯 “Text to Image라고 쓰인 점포” 등 문자가 포함된 이미지도 생성할 수 있게 되었습니다. 또 Transformer를 활용한 연구 역시 계속되고 있습니다. 최근 Cogview의 구조를 개량하여 DDPM + CLIP 기반 모델에 버금가는 성능을 보여주는 Cogview 2[12]가 발표되었으며, Deepmind에서는 Transformer 기반 700억 개 파라미터 모델인 Chinchilla에 image encoder를 결합한 Flamingo[13]를 공개하기도 했습니다.

이처럼 최근 Large Vision-Language Model (LVLM) 분야에서는 다양한 조직에서 빠른 속도로 새로운 기술을 선보이고 있어 조만간 새로운 국면을 맞이할 것으로 예상됩니다. 과연 Phase 4에는 어떤 모습의 Large Vision-Language Model (LVLM)이 등장할까요? 6월 19일부터 24일까지 진행되는 CVPR 2022에서 드러날 힌트를 통해 함께 예측해보시죠.

 

▶L-Verse: Bidirectional Generation Between Image and Text (Link)
▶L-Verse: Bidirectional Generation Between Image and Text 영상 보러 가기 (Link)

참고
[1] Brown et al., “Language models are few-shot learners”, In Advances in Neural Information Processing Systems, 2020
[2] Ramesh et al., “Zero-shot text-to-image generation”, In Proceedings of the International Conference on Machine Learning, 2021
[3] Radford et al., “Learning transferable visual models from natural language supervision”, In Proceedings of the International Conference on Machine Learning, 2021
[4] Oord et al., “Neural discrete representation learning”, In Advances in Neural Information Processing Systems, 2017
[5] Ding et al., “Cogview: Mastering text-to-image generation via transformers”, In Advances in Neural Information Processing Systems, 2021
[6] Kim et al., “L-Verse: Bidirectional Generation Between Image and Text”, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022
[7] Dhariwal et al., “Diffusion Models Beat GANs on Image Synthesis”, In Advances in Neural Information Processing Systems, 2021
[8] Nichol et al., “GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Mode”, Arxiv Preprint, 2021
[9] Ramesh et al., “Hierarchical Text-Conditional Image Generation with CLIP Latents”, Arxiv Preprint, 2022
[10] Saharia et al., Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding”, Arxiv Preprint, 2022
[11] Raffel et al., “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”, Journal of Machine Learning Research, 2020
[12] Alayrac et al., “Flamingo: a Visual Language Model for Few-Shot Learning”, https://www.deepmind.com/blog/tackling-multiple-tasks-with-a-single-visual-language-model, 2022
[13] Nichol et al., “GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Mode”, Arxiv Preprint, 2021