CVPR 2022 (Computer Vision and Pattern Recognition Conference)는 6월 21일부터 24일까지 4일간 개최되었습니다. 2년 만에 가상 공간이 아닌 뜨거운 햇살이 내리쬐는 뉴올리언스(New Orleans)에서 대면으로 개최된 학회인 만큼 참가한 비전 연구자들의 열정을 직접 몸으로 실감할 수 있는 시간이었습니다. LG AI연구원은 “세상을 보는 눈”인 비전(Vision) 연구의 최전선에 함께하기 위해 LG 계열사와 함께 기업 부스를 마련하기도 했습니다.
이번 포스팅에서는 Vision Lab (VL) 김태훈, 김범수 님, Fundamental Research Lab (FRL) 차성민 님과 함께 연구자로서 바라본 CVPR 2022에 대해 이야기해보겠습니다.
[VL 김태훈 님] Multimodal Representation: 결국 모든 건 0과 1로 이루어진 데이터일 뿐
Visual Recognition, Image Synthesis, Style Transfer 등 대부분의 vision 연구는 pixel로 표현된 이미지로부터 유의미한 정보를 추출하거나 이미지를 생성 및 변형하는 데 집중해 왔습니다. 다만 인간이 눈으로 보는 정보만으로는 모든 상황을 파악할 수 없듯이, 인공지능 연구에서도 이미지와 텍스트, 소리 등을 결합하여 더 어려운 문제를 해결하는 것에 대한 필요성이 대두되었고, 자연스레 Multimodal Representation Learning의 중요성이 커지고 있습니다. Vision과 타 분야를 결합하는 multimodal에 관한 최신 연구는 CVPR 2022에서도 많이 찾아볼 수 있었는데요, 그중 우수 발표 논문(Oral)으로 선정된 연구 하나를 소개합니다.
(Figure 1) MERLOT Reserve[1]에 대한 Poster 발표를 진행 중인 제1 저자 Rowan Zellers
MERLOT Reserve[1]는 영상에 포함된 vision, language, sound에 담긴 정보를 하나로 취합하여 이를 Video Common Sense (VCR), Video Question & Answering (VQA) 등 다양한 영상 분석 문제에 활용하는 연구입니다. 기존의 연구가 별도의 vision, language, sound 분석 모델을 사용하는 것과 달리, 본 연구는 사전 학습 단계에서 하나의 Transformer 모델을 사용해 영상에 담긴 프레임별 이미지, 텍스트 자막, 소리를 한 번에 학습합니다.
(Figure 2) MERLOT Reserve 모델 개요 (좌측) 와 학습 과정에 대한 설명(우측). MERLOT Reserve는 하나의 비디오에 담긴 이미지, 텍스트, 소리 정보 간의 연관성을 종합적으로 학습한다.
저자 Rowan Zellers에 따르면, 2,000만 개의 비디오에 담긴 이미지, 텍스트 자막, 소리를 사용하여 학습한 MERLOT Reserve는 이미지와 텍스트 자막만을 사용한 이전 모델 대비 다양한 태스크에서 최고 성능을 달성할 수 있었으며, 이 과정에서 학습에 소리 정보를 추가한 것이 결정적인 역할을 했다고 합니다.
(Figure 3) L-Verse[2]에 관한 Oral 발표 중인 김태훈 님(위)과 Poster 발표를 준비 중인 김태훈 님과 김승환 비전 Lab장(아래)
이번 CVPR 2022에서는 Merlot Reserve를 비롯하여 Vision + Language, Vision + Sound 등 이미지와 언어 혹은 소리 등 다른 정보를 결합하는 다양한 연구들이 소개되었습니다. 저 역시 이미지와 텍스트 간 양방향 생성을 주제로 한 L-Verse[2]를 주제로 Oral과 Poster 발표를 진행하였습니다. L-Verse를 포함한 Large Vision Language Model (LVLM)의 최신 트렌드는 이전 포스팅(링크)에서 보실 수 있습니다. 더불어, L-Verse를 소개하는 CVPR 발표 영상은 연구원 공식 Youtube(링크)에서 확인하실 수 있습니다.
디지털 세계에서 이미지 데이터를 표현하는 최소 단위인 1 pixel은 이를 구성하는 색상 단위인 Red, Green, Blue (RGB)로 이루어져 있으며, RGB는 색상 당 각각 1byte를 차지해 총 3byte로 구성되어 있습니다. 또, 텍스트를 구성하는 최소 단위인 character는 1byte (ASCII 기준) 입니다. 1byte는 다시 8개의 bit로 나뉘는데, 각 bit는 0과 1만을 표시할 수 있습니다. 결국 디지털 세상의 모든 정보는 0과 1로 이루어져 있고, 이를 어떻게 종합적으로 분석할 것인가가 Multimodal Representation Learning의 핵심이라고 볼 수 있습니다. CVPR 2022에서 발표된 연구들이 앞으로 어떠한 형태로 발전될지 기대됩니다.
[VL 김범수 님] Neural Radiance Field (NeRF): 사진 한 장으로 생성하는 물체의 형상
올해 CVPR에서 단연 화제가 되었던 것은 ECCV 2020 이래로 View Synthesis 분야에서 큰 반향을 불러일으키고 있는 Neural Radiance Field (NeRF)[3] 였습니다. NeRF는 객체를 다방면에서 찍은 이미지들을 이용하여 이전에 보지 못하던 시점에서 바라봤을 때 물체의 모습을 생성해내는 view synthesis를 위한 최신 방법론입니다. CVPR 2022에 선정된 논문 중 총 29편의 제목에 NeRF가 포함되어 있으며, 그중 8편은 상위 4%의 우수 발표 논문으로 선정되었습니다.
View Synthesis는 Computer Vision 분야에서 최근까지 손꼽히는 난제 중 하나였습니다. 일반적인 2D 이미지와 달리 우리 눈에 보이는 실제 3D 물체는 ‘광원’의 위치에 따라 그 모양과 색의 배열이 달라지기 때문입니다. 이번 포스팅에서는 CVPR 2022에 선정된 다양한 연구 중, 기존 NeRF의 한계를 뛰어넘는 Pix2NeRF[4]에 대해 소개해 드리겠습니다.
(Figure 4) 학습이 완료되면 하나의 이미지로부터 다양한 view의 이미지 생성이 가능한 Pix2NeRF
이전의 NeRF는 학습된 모델을 사용하는 추론(inference) 단계에서도 하나의 물체에 대한 수많은 view의 이미지를 필요로 한다는 한계가 있었습니다. 그러나 Pix2NeRF에서는 적대적 생성 네트워크(GAN)을 활용하여 하나의 이미지로부터 multi-view의 이미지를 생성하고, 이를 통해 few-shot이 아닌 single shot NeRF를 가능하게 하였습니다. 하나의 물체를 놓고 여러 view에서 찍은 데이터를 확보하기 위해서는 공간적, 비용적 제약이 따르는데, Pix2NeRF는 추론 단계에서 이와 같은 한계를 극복할 수 있는 가능성을 보여주며 NeRF 연구에 새로운 방향성을 제시하였습니다.
NeRF와 관련된 연구는 3D Avatar Generation, Object-Centric Novel View Synthesis, 3D-Aware Super-Resolution 등 여러 분야에 활용될 수 있어 AI human, VR, AR 등의 다양한 산업 영역에서 주목받고 있습니다. Pix2NeRF 외에도 CVPR 2022에서는 NeRF에 관한 다양한 최신 연구 결과를 만날 수 있었습니다. CVPR 2022에서 공개된 NeRF 관련 최신 연구 동향은 별도의 포스팅(Link)에서 살펴보실 수 있습니다.
[FRL 차성민 님] Continual Learning: 지속 가능한 모델 학습을 위한 첫걸음
인공신경망을 활용한 모델들은 Image Classification, Object Detection, Semantic Segmentation 등의 다양한 분야에서 인간에 버금가거나 심지어는 인간을 뛰어넘는 성능을 보여주고 있습니다. 그러나 이는 하나의 작업만을 수행하는 모델에 한정된 결과일 뿐, 다양한 작업을 연속적으로 학습하는 Continual Learning에서는 여전히 인간과 큰 격차를 보이고 있습니다. 예를 들어, 연속된 작업을 학습하는 상황에서 인간은 새로운 작업 능력을 학습하더라도 이전에 학습한 작업을 수행하는 방법을 완전히 잊진 않지만, 인공신경망의 경우에는 과거에 학습한 작업에 대한 정보를 대부분 잊어버리는 catastrophic forgetting을 겪게 됩니다.
이에 이러한 격차를 극복하고 기존에 학습된 모델을 재활용해 학습에 필요한 전반적인 비용을 줄일 수 있도록 해주는 Continual Learning 연구 분야는 지속적으로 많은 관심을 받고 있습니다. 이번 포스팅에서는 CVPR 2022에서 발표된 Continual Learning 연구 방향 중 하나를 소개해 드리겠습니다.
최근 활발히 진행되고 있는 Self-Supervised Learning 연구의 영향을 받아, Continual Learning 분야에서도 Unsupervised (혹은 Self-Supervised) 상황에서의 방법론 연구가 본격적으로 시작되고 있습니다. 이번 학회에서는 대표적으로 두 편의 논문[5,6]이 발표되었습니다.
(Figure 5) CaSSLe 예시
(Figure 6) CaSSLe(Ours)와 Supervised fine-tuning간 성능 비교
공통적으로 두 논문은 Self-Supervised Contrastive Learning을 이용한 Continual Learning이 기존의 Supervised Learning 기반 Continual Learning보다 catastrophic forgetting을 덜 겪는다는 것을 실험적으로 보여주었습니다. 다만 [5]는 Self-Supervised 상황뿐만 아니라 Supervised 상황까지 고려한 반면, [6]은 좀 더 Self-Supervised Learning에 집중했다는 점에서 차이가 있습니다. 추가로 [6]은 Figure 5와 같이 Self-Supervised Learning을 이용한 연속학습 상황에서 catastrophic forgetting을 극복함과 동시에 연속 학습 과정에서 더 나은 representation을 학습하는 데 도움이 될 수 있는 간단한 아이디어(CaSSLe)를 제안했습니다. 그리고 Figure 6과 같이 이를 이용했을 때 연속 학습 상황에서 Supervised fine-tuning 대비 더 우수한 결과를 얻을 수 있는 것을 실험적으로 보였습니다.
또한 CVPR 2022에서는 지금까지 중점적으로 연구되었던 Image Classification을 위한 Continual Learning뿐만 아니라, Visual Search, Semantic Segmentation 등의 다양한 도메인을 위한 Continual Learning 알고리즘도 발표되었습니다. 이를 통해 Continual Learning 분야가 좀 더 현실적인 문제 해결에 가까워지고 있는 것 같다는 느낌을 받을 수 있었습니다. CVPR 2022에서 발표된 Continual Learning에 대한 자세한 내용은 별도의 포스팅(Link)을 통해 자세히 소개해 드리겠습니다.
Conclusion
세 연구자의 시각으로 바라본 CVPR 2022는 어떠셨나요? LG AI연구원은 이번 CVPR 2022에서 기업 부스를 통해 ‘AI의 눈’이라고 불리는 Computer Vision 분야의 기술력을 전 세계에 알렸을 뿐만 아니라, 단독 연구 논문을 포함한 총 7편의 논문을 발표하며 탁월한 연구 성과를 보였습니다. 특히, 언어와 시각 정보를 모두 다루는 초거대 멀티모달 AI 구현의 핵심 기술인 ‘L-Verse’의 성과를 담은 단독 연구 논문(L-Verse: Bidirectional Generation Between Image and Text)은 이번 학회의 오럴 세션(Oral Session) 발표 대상으로 선정되는 결실을 거뒀습니다. 앞으로도 LG AI연구원은 학계와 적극적으로 소통하며 향후 글로벌 AI 기술을 선도하는 연구 기관으로 자리매김하기 위한 도전을 계속해 나가겠습니다.
▶LG AI연구원, CVPR 2022에서 연구 성과 증명하며 학계와의 교류에 앞장서다 (Link)
▶[LG AI Research]미국에서 LG의 AI 기술력을 뽐내다! CVPR 2022 현장 스케치 (Link)
▶[CVPR 2022]L-Verse: Bidirectional Generation Between Image and Text (Link)