SJ_737570b41.png Jun Seo 2024.04.17

[ICLR 2024] Advancements in Time Series Forecasting

인공지능을 활용해 과거의 데이터를 바탕으로 미래를 예측하는 시계열 예측 AI 기술은 다양한 영역에서 미래의 정보를 제공하여 의사 결정 과정을 보조할 수 있는 중요한 연구 분야입니다. LG AI연구원의 Data Intelligence Lab에서는 수요예측, 원자재 가격 예측 등 현업 의사결정 과정의 고민과 문제를 해결해 줄 수 있는 중요한 기술로 시계열 예측 AI 분야에 주목하여 다양한 연구를 활발하게 진행하고 있습니다. 최근 시계열 예측 분야에서의 혁신이 가속화됨에 따라, 2024년 5월에 진행하는 International Conference on Learning Representations (ICLR) 학회에서도 시계열 예측의 정확도와 효율성을 높이기 위한 다양한 방법론을 제시한 30편 이상의 논문이 발표되었습니다.

ICLR 2024에서 발표된 시계열 예측 AI 관련 논문들은 시계열 예측 모델 아키텍처, 언어모델을 활용한 시계열 예측, 확산 모델을 활용한 시계열 예측, 시계열 표현학습 등의 다양한 연구 주제를 다루고 있습니다. 이번 글에서는 ICLR에서 발표된 시계열 예측 AI 연구 중 눈여겨볼 만한 몇 가지 연구들을 소개하고, 시계열 예측 분야에서 LG AI연구원이 갖고 있는 비전과 고민들을 공유하고자 합니다.







FITS: Modeling Time Series with 10k Parameters[1]


FITS (Frequency Interpolation Time Series Analysis Baseline)는 효율적인 시계열 예측을 위해 주파수 도메인을 활용하는 혁신적인 방법론을 제안합니다. 시간 도메인에서의 예측(Forecasting/Extrapolation)과 주파수 도메인에서의 보간(Interpolation) 사이의 동치성을 활용하여, FITS는 1만개 정도의 적은 양의 파라미터만으로도 뛰어난 예측 성능을 구현합니다. FITS는 보간을 위한 단일 Complex-valued 선형 레이어를 활용하며, Harmonics 주파수를 기반으로 한 저주파 통과 필터를 적용함으로써 예측 성능을 보존하면서도 모델의 크기를 크게 줄일 수 있음을 보였습니다. 주파수 도메인을 활용해 작은 모델로 좋은 예측 성능을 획득한 FITS의 결과는 예측 정확도와 연산 효율성이 높은 모델 개발에 주파수 도메인을 활용할 수 있다는 가능성을 보여줍니다.

Long-term 시계열 예측 벤치마크 데이터셋을 이용한 실험 결과, FITS는 대부분의 벤치마크에서 기존 SOTA(state-of-the-art) 모델을 뛰어넘는 성능을 보입니다. 성능상의 이점뿐 아니라, FITS는 연산 효율 측면에서 기존 모델들과 차별화되는 장점을 갖습니다. 적은 양의 파라미터와 적은 연산량 만으로도 높은 예측 성능을 확보할 수 있는 FITS는 고성능의 연산 장비를 구성하기 어려운 환경이나, 다양한 제품에 대한 수요 예측과 같이 여러 종류의 시계열에 대해 다수의 예측 모델을 학습해야 하는 환경에서 유용하게 활용될 수 있을 것으로 전망됩니다.


그림 1. Frequency Interpolation Time Series Analysis Baseline(FITS)[1]의 방법론 개요도

그림 2. FITS[1]와 Baseline 방법론들의 Benchmark 예측 성능 비교표

그림 3. FITS[1]과 Baseline 방법론들의 연산량 비교표


ModernTCN: A Modern Pure Convolution Structure for General Time Series Analysis[2]


ModernTCN은 Transformer 모델의 구조에서 영감을 받은 혁신적인 Convolutional Network 아키텍처를 바탕으로, General한 시계열 분석이 가능한 개선된 Temporal Convolution Network (TCN) 모델을 제안합니다. 제안된 방법론은 시간적 패턴을 효과적으로 파악하기 위해 시계열 데이터를 여러 패치로 분할하고, 이를 Feature로 임베딩합니다. Depthwise Convolution과 Convolution Feed-forward Network의 새로운 Convolution 구조를 사용함으로써, ModernTCN은 다양한 시계열 문제에서 이전 SOTA(state of the art) 모델보다 우수한 성능을 보입니다. Convolution 아키텍처와 Transformer의 디자인을 통합하여 높은 성능을 보이는 ModernTCN의 결과는 시계열 예측 분야에서의 다양한 신경망 패러다임 간의 결합을 통한 시너지의 가능성을 보여줍니다.

ModernTCN은 시계열 예측만이 아닌 이상 감지, 분류, 결측치 복원 등 다양한 시계열 문제에서 좋은 성능을 발휘합니다. 또한, Convolution 기반으로 구성되어 Transformer 기반의 예측 모델들에 비해 학습 속도가 빠르고 메모리 사용량이 적어 성능과 연산량의 두 가지 측면 모두에서 균형 있게 좋은 모습을 보이는 모델이기도 합니다. 이와 같은 특성을 고려해 볼 때, MorderTCN은 하나의 모델로 다양한 시계열 Task에 공유해서 활용하는 사전학습 시계열 모델의 기반 구조로써 활용될 수 있는 가능성이 있습니다.


그림 4. ModernTCN[2] 에서 제안한 Temporal Convolution Block 디자인

그림 5. ModernTCN[2]의 성능 (왼쪽) 및 성능대비 학습시간 (오른쪽) 비교 그림


TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting[3]


TimeMixer는 시계열의 다양한 패턴을 포착하기 위해 다양한 스케일로 샘플링 된 다중 스케일 시계열을 활용하는 새로운 접근 방식을 제안합니다. 이 방법론은 다양한 스케일에서 시계열 데이터를 Trend 및 Seasonality 구성 요소로 분해하고, 각 구성 요소의 특성을 반영하여 다중 스케일 시계열의 정보를 혼합하는 Feature Mixing 프로세스를 수행합니다. Trend 구성 요소에 대해서는 하향식 (Coarse-to-fine) Feature Mixing 전략을, Seasonality 구성 요소에 대해서는 및 상향식 (Fine-to-coarse) Feature Mixing 전략을 채택함으로써, TimeMixer는 기존의 방법론을 능가하는 시계열 예측 성능을 보입니다. TimeMixer의 결과는 다양한 스케일에서 시계열 데이터를 활용하는 것이 실제 세계의 시계열 데이터의 다양한 Dynamics를 포착하는데 유용한 도구로 사용될 수 있음을 보여줍니다.


그림 6. TimeMixer[3]의 방법론 개요도

그림 7. TimeMixer[3]와 Baseline 방법론들의 Benchmark 예측 성능 비교표

그림 8. TimeMixer[3]의 Feature Mixing 전략 분석 실험 결과 표


TimeMixer의 실험 결과는 제안한 모델이 기존 모델을 뛰어넘는 예측성능을 보이는 것과 더불어, 제안한 상향식/하향식 Feature Mixing 전략이 상대적으로 거시적인 Trend의 특성과 미시적인 Seasonality의 특성을 잘 반영하고 있음을 보여줍니다. 따라서, TimeMixer와 같이 Trend와 Seasonality의 특성을 적절하게 반영한 예측 모델은 거시적인 추세성과 미시적인 주기성이 혼합되어 있는 상황의 예측 문제 해결에 효과적으로 활용될 수 있을 것입니다.


TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting[4]


TEMPO는 언어모델 (GPT-2)를 LoRA를 이용해 Fine-tuning하여 시계열 모델을 학습하는 새로운 방법론을 제안합니다. 이 방법론은 시계열 데이터를 STL Decomposition 기법을 통해 Trend, Seasonality, Residual 구성 요소로 분해한 후, 각 구성 요소들을 다수의 패치로 나누어 모델의 입력으로 사용함으로써 모델이 시계열의 특성을 더 잘 파악할 수 있도록 합니다. 더 나아가, TEMPO는 다수의 Soft Prompt가 포함된 Prompt Pool을 도입하고, 각 구성요소에 대해 적절한 Prompt를 선택할 수 있도록 하여 보다 효과적인 예측을 수행하고 다양한 데이터셋에 대해 높은 성능을 보입니다. TEMPO는 또한 다양한 Domain의 시계열 데이터에 대해 Cross-domain 학습 능력을 보이며, 시계열 예측 분야에서 언어 모델 활용의 잠재력을 보여줍니다.


그림 9. TEMPO[4]의 방법론 개요도

그림 10. TEMPO[4]와 Baseline 방법론들의 Benchmark 예측 성능 비교표

그림 11. TEMPO[4]와 Baseline 방법론들의 Multimodal 예측 성능 비교표


TEMPO는 Cross-Domain 학습 능력을 갖추고 있으며 Cross-Domain Learning을 바탕으로 한 Zero-shot Forecasting 실험에서 기존 모델들을 뛰어넘는 좋은 성능을 보입니다. 다른 한편으로, TEMPO는 시계열 데이터와 언어 데이터를 함께 사용할 수 있는 Multimodal 예측 모델로, 언어 데이터와 시계열 데이터를 함께 사용한 Multimodal Forecasting 실험에서 좋은 성능을 보입니다. TEMPO와 같은 Multimodal 예측 모델은 가격 결정에 복합적인 요인이 개입하여 정형 시계열 데이터의 정량적 정보만을 이용한 예측에는 한계가 있고, 보다 정확한 예측을 위해서는 비정형 언어 데이터의 정성적인 정보를 활용해야 하는 원자재 가격 또는 주가 예측 문제 해결에 활용할 수 있을 것으로 보입니다.


Generative Learning for Financial Time Series with Irregular and Scale-Invariant Patterns[5]


금융 데이터는 Irregular하고 Scale-Invariant한 패턴을 갖는다는 점에서 다른 시계열 데이터와는 다른 특성을 갖고 있습니다. 이 논문에서는 금융 데이터를 위한 새로운 생성 학습 프레임워크인 Financial Time Series Diffusion (FTS-Diffusion)을 소개합니다. FTS-diffusion은 Pattern-conditioned Diffusion 네트워크, Scaling Autoencoder, Pattern Evolution 네트워크의 세 가지 서로 다른 네트워크들의 조합으로 이루어져 있습니다. Dynamic Time Warping (DTW)와 K-means Clustering 등의 기법들을 사용함으로써, FTS-Diffusion은 금융 데이터의 복잡한 패턴을 포착하고 활용하는 데 좋은 성능을 보입니다. 제안된 방법론은 금융 시계열 예측 문제에 대한 Data Augmentation 실험에서 기존의 Baseline 기법들을 능가하는 성능을 보이며, Irregular하고 Scale-Invariant한 패턴을 갖는 금융 데이터를 처리하는 데 탁월한 능력을 보입니다.


그림 12. FTS-diffusion[5]의 방법론 개요도

그림 13. FTS-diffusion[5]을 사용한 Data Augmentation 실험 성능 비교


FTS-diffusion은 일반적인 시계열 데이터와는 다른 금융 데이터의 특성을 반영한 생성 모델로, 생성 모델을 이용한 Data Augmentation 실험에서 기존의 생성 모델보다 좋은 성능을 보였습니다. 논문에서 제안한 FTS-diffusion 모델은 데이터 증강을 위해 사용되는 생성 모델이지만, 금융 데이터의 특성을 반영한 시계열 모델 연구를 생성 모델만이 아닌 예측 모델로 확장할 수 있다면 주가, 환율 등 금융 분야의 시계열 예측 성능을 효과적으로 향상시킬 수 있을 것으로 기대됩니다.


Soft Contrastive Learning for Time Series[6]


SoftCLT는 시계열 데이터에 특화된 새로운 Contrastive Learning 방식을 제안하여 시계열 데이터에 내재된 정보와 상관 관계를 효과적으로 학습하는 기법입니다. Instance-wise Contrastive Learning과 Temporal Contrastive Learning의 두가지 Contrastive Learning 기법을 결합함으로써, SoftCLT는 시계열 간의 상관 관계 및 시계열 내의 시점 간의 상관 관계를 효과적으로 학습합니다. 제안하는 방법론은 기존의 시계열 표현학습 기법과 결합하여 사용될 수 있으며, 더 나은 표현을 학습함으로써 시계열 분류, 이상감지, 예측 등 다양한 Downstream Task들에서 성능 향상을 가져옵니다.


그림 14. SoftCLT[6]의 방법론 개요도

그림 15. SoftCLT[6]의 시계열 분류 (왼쪽 위), 이상감지 (왼쪽 아래), 시계열 예측(오른쪽) 성능 표


SoftCLT의 학습 기법은 기존 Representation Learning 기법과 결합되어 더 좋은 Representation을 학습함으로써 시계열 분류, 이상감지, 예측 모두에서 좋은 성능을 발휘합니다. 시계열의 특성을 반영해 시계열 데이터의 Representation을 학습하는 SoftCLT 기법은 대량의 시계열 데이터를 기반으로 학습하여 다양한 시계열 Task에 공통적으로 활용할 수 있는 사전학습 모델을 학습하는 데 유용하게 사용될 것으로 생각됩니다.


DAM: A Foundation Model for Forecasting[7]


DAM은 다양한 시계열 데이터셋과 예측 환경을 단일 모델로 처리할 수 있는 통합 예측 모델을 만드는 것을 목표로 합니다. 이 방법론은 1분부터 수년까지의 주기를 커버하는 437개의 다양한 주파수를 갖는 사전 정의된 Basis 함수를 활용하여 Basis 기반의 해석 가능한 예측을 가능하게 합니다. DAM은 입력 시계열을 사전 정의된 Basis로 나타내기 위한 Coefficient를 입력 시계열과 함께 활용해 예측을 수행하고, 이 과정에서 불규칙하게 샘플링 된 시계열 데이터를 활용하기 위해 트랜스포머 기반 아키텍처를 활용합니다. DAM은 서로 다른 특성을 갖는 다수의 시계열 데이터셋을 이용해 학습할 수 있으며, 다양한 도메인에 대해서 우수한 예측 성능을 발휘하며 다양한 예측 환경에 대한 탁월한 적응성을 보여줍니다.


그림 16. DAM[7]의 방법론 개요도

 

DAM이 다양한 예측 환경에서 좋은 성능을 발휘하는 것을 확인하기 위해, 논문에서는 다양한 도메인에 걸쳐 학습된 단일 DAM 모델의 성능을 다수의 도메인에서 측정하였습니다. 실험 결과, DAM 모델은 다양한 도메인에서 각 도메인에 특화해 학습한 예측 모델들과 비슷한 수준의 예측 성능을 보이며 다양한 예측 문제를 단일 모델로 처리하는 통합 모델의 가능성을 보였습니다. 더 나아가, 학습 과정에서 사용하지 않은 새로운 도메인에 대해 별도의 학습 없이 예측하는 Zero-shot 예측 실험에서 기존 모델들보다 좋은 성능을 보이며 새로운 예측 환경에 대한 적응성을 증명하였습니다. 이와 같은 Cross-domain 예측 성능 및 새로운 Domain에 대한 적응성을 갖는 Foundation 예측 모델은 다양한 예측 문제를 다루며, 새로운 예측 문제가 자주 발생하는 수요 예측 등의 문제를 해결하는 데 유용한 도구가 될 것입니다.


그림 17. DAM[7]와 Baseline 방법론들의 Benchmark 예측 성능 비교표

그림 18. DAM[7]와 Baseline 방법론들의 새로운 도메인에 대한 예측 성능 비교표

 

Conclusion: Towards Future Innovations


최근 시계열 예측 AI와 관련된 연구가 점점 더 활발하게 이루어지고 있고, 근래의 연구 결과들은 단순한 예측 모델 구조와 학습 기법의 발전에 국한되지 않고 전통적인 시계열 분석 방법부터 최근 주목받고 있는 언어모델 및 확산모델까지 다양한 도구를 활용해 기존의 예측 기법의 한계를 극복하는 다양한 방향으로 이루어지고 있습니다. 이번 ICLR 2024에서 발표된 논문들은 이와 같이 다양한 도구를 활용해 시계열 데이터의 본질적인 특성을 반영한 모델을 개발하여 예측 성능을 높이고, 더 나아가 Cross-domain 예측, Zero-shot 예측 등 시계열 예측 분야의 새로운 가능성을 제시하고 있습니다.

LG AI연구원이 중점을 두고 있는 현업의 의사결정을 보조하기 위한 시계열 예측 문제의 해결을 위해서는 다양한 환경에서 높은 정확도로 신뢰할 수 있는 예측을 할 수 있어야 합니다. 따라서 예측 모델은 높은 예측 성능에 더해 새로운 예측 환경에 대한 적응성과, 예측의 근거 확보를 통한 신뢰성을 갖추어야 합니다. 이번 ICLR 2024에서 발표된 시계열의 특성을 반영한 예측 기법, Cross-domain 예측 기법, Text 데이터를 활용한 Multimodal 예측 기법 등의 연구는 LG AI연구원이 시계열 예측에 대해 고민하고 지향하는 방향성과 맞닿아 있는 연구라고 생각합니다. LG AI연구원의 Data Intelligence Lab에서는 특히 예측의 근거 확보를 통한 정확하고 신뢰할 수 있는 예측을 수행하는 예측 기술에 초점을 맞추어 Multimodal 데이터를 사용한 예측 모델 연구, 시계열 Foundation 모델 연구 등의 다양한 연구를 진행하고 있습니다. 이를 기반으로 더욱 신뢰할 수 있는 예측 결과를 확보하고, 산업 현장에 적용하기 위해 계속 연구를 진행해 나갈 예정입니다.

참고
[1] Xu, Zhijian, Ailing Zeng, and Qiang Xu. "FITS: Modeling Time Series with 10k Parameters." The Twelfth International Conference on Learning Representations. 2024.

[2] Luo, Donghao, and Xue Wang. "ModernTCN: A modern pure convolution structure for general time series analysis." The Twelfth International Conference on Learning Representations. 2024.

[3] Wang, Shiyu, et al. "TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting." The Twelfth International Conference on Learning Representations. 2024.

[4] Cao, Defu, et al. "TEMPO: Prompt-based Generative Pre-trained Transformer for Time Series Forecasting." The Twelfth International Conference on Learning Representations. 2023.

[5] Huang, Hongbin, Minghua Chen, and Xiao Qiao. "Generative Learning for Financial Time Series with Irregular and Scale-Invariant Patterns." The Twelfth International Conference on Learning Representations. 2024.

[6] Lee, Seunghan, Taeyoung Park, and Kibok Lee. "Soft Contrastive Learning for Time Series." The Twelfth International Conference on Learning Representations. 2024.

[7] Darlow, Luke Nicholas, et al. "Dam: A foundation model for forecasting." The Twelfth International Conference on Learning Representations. 2023.