person_160_160_ff5e19731.png Sungmin Cha 2022.07.22

[CVPR 2022] Research trend of continual learning

지난 2016년, 인공신경망을 이용한 프로그램 알파고가 그간 인공지능에게는 난공불락의 영역이라고 여겨진 바둑 분야에서 인간 대표 이세돌에게 압도적인 승리를 거둔 이래로, 인공신경망은 발전을 거듭하여 다양한 분야에서 인간을 능가하거나(예: 이미지 분류 등) 놀라운 결과(예: 자연어 처리 분야 등)를 보여주고 있습니다. 이처럼 인공신경망을 이용한 학습 방법은 단일 태스크를 학습하는 상황에서 우수한 결과를 보이고 있습니다. 그러나 여러 태스크를 연속적으로 학습하는 ‘연속 학습’ 능력에서는 여전히 인간과 큰 격차를 보이고 있습니다. 예를 들어, 연속된 태스크를 학습하는 상황에서 인간은 새로운 태스크를 학습하더라도 이전에 학습한 태스크의 정보를 완전히 잊어버리진 않지만, 인공신경망의 경우 과거에 학습한 태스크에 대한 정보를 대부분 잊어버리는 catastrophic forgetting을 겪게 됩니다. 이러한 격차를 줄이기 위한 노력으로, 연속 학습 연구 분야는 과거부터 많은 관심을 받고 있으며 자연스럽게 다양한 연구 결과들이 발표되고 있었습니다. 본 글에서는 이번 CVPR 2022에서 발표된 연속 학습 관련 연구 중 최신 연구 경향을 대표하는 두 가지 연구 방향을 선정하고 이를 간단히 소개하겠습니다.

 

연구 방향 1: Transformer 모델을 이용한 연속 학습 알고리즘 연구

최근 Transformer 기반 모델이 컴퓨터 비전에도 적용되어 다양한 태스크에서 Convolutional Neural Network(CNN) 기반 모델에 비견하는 성능을 보여주고 있습니다. 이에 따라, 기존 CNN (혹은 Fully Connected Neural Network) 기반 모델에 관해서만 연구되었던 연속 학습 연구자들도 Transformer 기반 모델을 위한 연속 학습 알고리즘에 관심을 가지기 시작했습니다. 이번 학회에서 발표된 대표적인 관련 논문 한 가지[1]를 선정했고, 해당 논문의 요약은 다음과 같습니다.

 

(Figure 1) DyTox 예시

 

논문 [1]은 Transformer 모델을 이용한 연속 학습을 위해 dynamic token expansion이라는 방법을 제안했습니다. 기존 연구는 CNN 기반 모델을 동적으로(dynamic) 확장해가며 연속 학습을 수행하는 알고리즘이 catastrophic forgetting을 극복하는 데 우수한 결과를 보였지만, 각 알고리즘이 실제로 사용하기에 매우 복잡하거나 다양한 하이퍼 파라미터를 튜닝해야 하는 단점이 있었습니다. 하지만 이 논문은 Transformer 모델의 특징을 이용하여 상대적으로 작은 모델 확장만으로 복잡한 과정 없이 기존 알고리즘들의 성능을 능가할 수 있는 DyTox라는 알고리즘을 제안했습니다. DyTox는 (Figure 1)에서와 같이 기본적으로 연속학습 상황에서 Transformer의 encoder와 decoder가 공유될 때, 태스크 별 token(θt)와 encoder의 output(x5)을 바탕으로 생성된 task-specific embedding(ei)를 이용하여 classifier(clf)를 binary cross-entropy를 통해 학습하는 방법을 제안했습니다. 그 결과, 동일하게 random initialization에서 시작하는 다양한 데이터 세트(예: Imagenet-100, ImageNet-1000 및 CIFAR-100)를 이용한 실험에서 제안한 알고리즘이 우수한 결과를 달성하는 것을 보였습니다.

 

연구 방향 2: unsupervised(혹은 self-supervised) 상황에서의 연속 학습 알고리즘에 대한 연구

최근 label 정보 없이 classifier를 학습하는 unsupervised learning 상황에서도 좋은 representation을 학습할 수 있음을 보여주는 다양한 self-supervised learning 연구 결과들이 발표되었습니다. 이러한 결과에 영향을 받아, unsupervised (혹은 self-supervised) 상황에서의 연속 학습 알고리즘에 대한 연구도 본격적으로 시작되고 있습니다. 이번 학회에서는 대표적으로 두 개의 논문[2,3]이 발표되었고 각각의 논문의 내용을 요약하면 다음과 같습니다.

흥미롭게도 두 논문은 공통적으로 self-supervised contrastive learning을 이용한 연속 학습이 기존의 cross entropy를 이용한 supervised learning 상황에서의 연속 학습보다 catastrophic forgetting을 덜 겪는다는 것을 실험적으로 보여주었습니다. 다만, [2]는 self-supervised 상황뿐만 아니라 supervised 상황까지 고려하여 contrastive learning 기반 loss function이 연속 학습 상황에서 catastrophic forgetting을 덜 겪는다는 것을 다양한 실험 및 연속 학습 시나리오로 보여주었습니다. 반면에, [3]은 좀 더 self-supervised learning에 집중한 논문으로, 현재 발표된 다양한 형태의 self-supervised learning 알고리즘들을 이용해 연속 학습을 수행한 후 결과를 비교하였습니다. 추가적으로, self-supervised learning을 이용한 연속 학습 상황에서 catastrophic forgetting을 극복하는 데 도움이 될 수 있는 간단한 아이디어(CaSSLe)를 제안하고, 이에 대한 실험 결과가 supervised fine-tuning의 결과보다 더 높은 성능을 달성할 수 있음을 보였습니다.

 

연구 방향 3: 연속 학습 상황에서 올바른 Batch Normalization 사용에 관한 연구 (CLVISION workshop)

CVPR에서는 다양한 workshop이 열리는데, 최근 몇 년 간 연속 학습에 대한 워크샵(CLVISION)이 꾸준히 개최되고 있습니다. 올해 workshop에서는 제가 최근에 연구 중인 내용의 초안을 직접 발표하는 기회를 얻을 수 있었습니다. 발표한 연구의 동기는 ‘classification에서의 연속 학습 연구 중 대다수는 단일 태스크를 학습하는 상황과 대부분의 것(예: 모델, optimizer 등)을 동일하게 사용하면서 연속 학습을 위해 새로운 방법론적 알고리즘을 제안하는 것을 목표로 하는데, 과연 동일하게 유지된 것들 모두가 연속 학습 상황에 적절한가?’입니다. 이에 본 논문에서는 Batch Normalization (BN)이 포함된 CNN 기반 모델을 이용한 exemplar 기반 연속 학습 상황에서 기존의 BN이 제대로 된 역할을 하지 못한다는 것을 지적하고 이를 극복하기 위한 간단한 아이디어(Task-balanced batch normalization)를 제안했습니다[7].

 

(Figure 2) task-balanced mean, var 계산

(Figure 3) less-biased gamma, beta 학습

 

(Figure 2)에서 확인할 수 있듯이, exemplar를 사용하는 연속 학습 상황에서 각 mini-batch는 현재 task에 대한 데이터(Bc)와 이전 task에 대한 데이터(Bp)를 sampling해 구성됩니다. 이때, mini-batch 내 데이터의 구성은 현재 task 데이터에 크게 bias 되기 때문에 학습 과정에서 catastrophic forgetting 혹은 biased prediction 등의 다양한 문제가 발생합니다. 하여 이를 극복하기 위한 다양한 아이디어가 제안되었습니다. 이 논문에서는 이외에도 BN layer의 mean, variance, gamma, beta 등도 현재 task에 크게 bias되는 것을 지적하고 이를 해결하기 위한 간단한 아이디어를 제안했습니다. 먼저, (Figure 2)에서 보이는 것처럼 task-adaptive 하게 결정되는 r에 따라 현재 task 데이터는 reshape, 이전 task 데이터는 repeat할 경우 task-balanced한 mean과 variance를 계산할 수 있음을 보였습니다. 또한, (Figure 3)에서 보이는 것처럼 reshape 연산을 BN 과정에서 이용할 경우 gamma, beta를 현재 task에 less-biased하게 학습할 수 있음을 보였습니다. 각각의 SOTA 연속 학습 알고리즘을 사용하는 상황에서 기존 CNN 모델에 있는 BN layer를 제안된 방법(TBBN)으로 단순히 교체하여 동일하게 연속 학습을 수행했을 때, 기존 BN layer를 사용했을 때 대비 거의 모든 상황에서 성능 향상을 얻을 수 있음을 보였습니다.

 

(Figure 4) 포스터 발표 모습

 

마지막으로, 이번 학회에서는 지금까지 중점적으로 연구되었던 classification 태스크를 위한 연속 학습 알고리즘 뿐만 아니라, visual search[4], semantic segmentation[5,6] 등 좀 더 다양한 도메인을 위한 연속 학습 알고리즘도 발표되는 것을 보며 연속 학습 연구 분야가 점점 커지고 있는 것을 느낄 수 있었습니다. 하지만 multi-task로 학습한 결과와 연속학습 상황에서 학습한 결과의 성능 차이가 여전히 존재하고 있기 때문에, 이러한 차이를 줄일 수 있는 새로운 아이디어에 대한 고민도 여전히 필요하다는 것을 느꼈습니다.

 

▶[CVPR 2022] LG AI연구원, 비전 연구의 메카 CVPR 2022에 가다! (Link)
▶[CVPR 2022] NeRF - Representing scenes as neural radiance fields for view synthesis (Link)

참고
[1] A. Douillard, et al., DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[2] M. Davari, et al., Probing Representation Forgetting in Supervised and Unsupervised Continual Learning, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[3] E. Fini, et al., Self-Supervised Models are Continual Learners, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[4] T. Wan, et al., Continual Learning for Visual Search with Backward Consistent Feature Embedding, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[5] C. Zhang, et al., Representation Compensation Networks for Continual Semantic Segmentation, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[6] M. Phan, et al., Class Similarity Weighted Knowledge Distillation for Continual Semantic Segmentation, In IEEE / CVF Computer Vision and Pattern Recognition Conference, 2022

[7] S. Cha, et. al., Task-balanced Batch Normalization for Exemplar-based Class-Incremental Learning, In IEEE / CVF Computer Vision and Pattern Recognition Conference, CLVISION workshop, 2022