논문

[논문 리뷰] KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting?

khseon7 2025. 1. 23. 20:44

https://arxiv.org/abs/2408.11306

 

KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting?

Time series forecasting is a crucial task that predicts the future values of variables based on historical data. Time series forecasting techniques have been developing in parallel with the machine learning community, from early statistical learning method

arxiv.org

1. Introduction

딥러닝 기반 모델의 두 가지 문제점

  1. 수학적 한계: 대부분의 모델은 보면 근사 정리에 기반하지만, 이 정리는 네트워크 크기(깊이와 너비)와 정확도 간의 명확한 관계를 보장하지 못하여 근사에 그친다.
  2. 해석 가능성 부족: 기존 모델들은 블랙박스 방식으로 작동하여 높은 정확도가 요구되는 분야에 적합하지 않은 경우가 많다.

이를 해결하기 위해 Kolmogorov-Arnold Network(KAN)이 제안된다. KAN은 Kolmogorov-Arnold 표현 정리(KART)를 기반으로, 다변수 연속 함수를 유한 개의 단변수 연속 함수로 표현할 수 있다는 이론적 기반을 제공하는 네트워크이다.

 

KAN과 다양한 변형 모델을 결합해봤으나 시계열 데이터를 고려한 연구가 부족하여 mixture-of-experts 구조를 활용한 KAN 기반 모델인 Reversible Mixture of KAN experts(RMoK)가 제안되었다.

 

2. Problem Definition

다변량 시계열 예측에서, 주어진 과거 데이터 $X=[X_1,\cdots,X_T]\in\mathbb{R}^{T\times C}$ 는 다음과 같은 요소로 구성된다.

  • T: 과거 데이터의 시간 단계
  • C: 변수의 개수

시계열 예측의 목표: 미래 P 단계 동안의 데이터를 예측하는 것

3. Related Work

3.1 Time-Series Forecasting Models

최근 시계열 예측에서는 Transformer, CNN, MLP 등 다양한 네트워크 구조가 사용되고 있다.

 

Transformer 기반

 

Transformer 기반 모델은 강력한 성능을 보이지만 높은 시간 및 메모리 복잡도를 가지는 단점이 있다.

 

해결 방안

  • Informer: ProbSparse self-attention을 통해 복잡도를 $O(T^2)$에서 $O(T\log T)$로 줄임
  • Pyraformer: 피라미드 주의 매커니즘을 사용해 복잡도를 $O(T)$로 낮춤
  • PatchTST & Crossformer: 입력 토큰 수를 줄이는 패치 연산으로 복잡도를 줄임

MLP 기반

 

초기 MLP 기반 모델은 Transformer에 비해 성능이 떨어진다.

 

해결 방안

  • NLinear & RLinear: 단일 레이어 MLP에 다양한 정규화 방법을 결합해 일부 데이터셋에서 Transformer를 능가하는 성능을 매우 낮은 계산 비용으로 달성

RNN 기반

 

RNN 기반 모델은 시퀸스 데이터를 처리하기에 적합하다.

 

ex. SegRNN & WITRAN: 긴 입력 데이터를 처리하기 위해 RNN 구조를 활용

 

CNN 기반

 

CNN 기반 모델은 주로 1D 콘벌루션을 활용한다.

 

사용 예시

  • ModernTCN & SCINet
  • TimesNet: 1D 시계열 데이터를 푸리에 변환으로 2D 행렬로 변환하고 2D 컨볼루션을 적용하는 독창적인 접근 방식 사용
  • Mamba, RWKV와 같은 새로운 네트워크 아키텍처를 활용한 시계열 예측 연구도 진행

3.2 Kolmogorov-Arnold Network

Kolmogorov-Arnold 표현 정리(KART)는 KAN의 수학적 기반으로, 이 정리를 통해 KAN은 보편 근사 정리를 기반으로 하는 다층 퍼셉트론(MLP)보다 더 적합하고 해석 가능한 모델이 된다.

 

KAN과 MLP의 차이는 아래 Figure 1에서 확인할 수 있으며, $x\in\mathbb{R}^{n_0}$ 형태의 입력 텐서와 L 레이어로 구성된 KAN 네트워크 구조로 설명된다.

Figure 1. The computational process of Linear and KAN layers

$$KAN(x)=(\Phi_L\circ\Phi_{L-1}\circ\cdots\circ\Phi_2\circ\Phi_1)x\quad (1)$$

 

KAN은 각 레이어 $\Phi_l$, $l\in[1,2,\cdots,L]$이고, 각 레이어의 출력 차원은 $[n_1,n_2,\cdots,n_L]$로 표현된다. $l$-번째 레이어에서 $j$-번째 특징의 변환 과정은 다음과 같이 정의된다.

 

$$x_{l,j}=\sum_{i=1}^{n_{l-1}}\phi_{l-1,j,i}(x_{l-1,i}),j=1,\cdots,n_l\quad (2)$$

 

여기서 $\phi(x)$는 두 부분으로 구성된다.

  1. 스플라인 함수: $Spline(x)=\sum_ic_iB_i(x)$
  2. 잔차 활성 함수: $\phi(x)=w_b\cdot SiLU(x)+w_s\cdot Spline(x)\quad (3)$

최근 연구에서 KAN의 성능을 확장하고 다양한 분야에 적용하기 위해 여러 변형 모델이 제안되었다.

  • 대체 함수 사용: 웨이브릿 함수, 테일러 다항식, 자코비 다항식을 사용하여 성능 향상
  • 응용 분야 확장: KAN을 시각 및 그래픽 분야에 적용한 ConvKAN과 GraphKAN이 제안

하지만 KAN을 시계열 데이터에 적용한 연구는 이론적 및 실험적 분석이 부족한 상황이다. 본 paper는 KAN과 그 변형 모델의 시계열 예측 효과를 분석하기 위해 설계되었다. KAN 변형 모델들은 통합적으로 XKAN으로 표현된다.

4. RMoK

4.1 Mixture of KAN Experts Layer

KAN은 다변량 시계열에서의 변수 간 분포 변화에 대해 기존 Linear 및 Transformer 기반 네트워크와 차별화된 특징을 가지고 있다. KAN은 다양한 스플라인 함수 변형을 제공하며, 특정 스플라인 함수가 특정 데이터 분포를 모델링하는 데 적합할 수 있다는 점에서 장점을 가진다. 이를 기반으로 여러 KAN을 하나의 레이어로 결합하고, 입력 데이터에 따라 적응적으로 활용하는 방안을 모색했다.

 

이 아이디어를 바탕으로, KAN 전문가 혼합(MoK, Mixture of KAN expers) 레이어를 제안한다. MoK 레이어는 KAN과 전문가 혼합(MoE) 구조를 결합한 것으로, 게이팅 네트워크를 통해 KAN 레이어를 변수에 할당한다. 각 전문가(KAN 레이어)는 데이터의 특정 부분을 처리하며, KAN과 그 변형은 스플라인 함수에만 차이가 있으므로 이를 $\mathcal{K}(\cdot)$로 통합하여 표현했다. MoK 레이어는 N개의 전문가로 구성되며 간단히 나타낼 수 있다.

$$x_{l+1}=\sum_{i=1}^N(\mathcal{G}_l)_i\mathcal{K}_i(x_l)\quad (4)$$

여기서 $\mathcal{G}(\cdot)$은 게이팅 네트워크로, 시계열의 다양성에 적응하여 각 전문가가 시간 특성의 다른 부분을 학습핟로ㅗㄱ 하여 시계열 예측 성능을 향상시킨다.

 

게이팅 네트워크는 MoK 레이어의 핵심 모듈로, 입력 데이터에서 각 전문가의 가중치를 학습하는 역할을 한다. Softmax 게이팅 네트워크인 $G_{softmax}$는 소프트맥스 함수와 학습 가능한 가중치 행렬 $w_g$를 사용하여 입력 데이터를 조정한다.

$$\mathcal{G}_{softmax}(x)=Softmax(xw_g)\quad (5)$$

하지만 이 방식은 모든 전문가를 활성화하기 때문에 전문가가 많을 경우 비효율적일 수 있다. 따라서 우리는 희소 게이팅 네트워크를 채택하여 최적의 매칭이 이루어지는 상위 k개의 전문가만 활성화한다. 이 네트워크는 입력 시계열에 Gaussian 노이즈를 추가하고, KeepTopK 연산을 사용하여 가장 높은 k개의 전문가만 유지한다.

$\mathcal{G}_{sparse}(x)=Softmax(KeepTopK(H(x),k))\quad (6)$

$H(x)=xw_g+Norm(Softplus(xw_{noise}))\quad (7)$

4.2 Reversible Mixture of KAN Experts Model

우리는 분석이 용이하면서도 최신 시계열 예측 방법들과 비슷한 성능을 달성하는 간단한 KAN 기반 모델을 설계하려한다.

 

여러 성공적인 단일 계층 방법에 영감을 받아, 우리는 Reversible Mixture of KAN Experts Network(RMoK)라는 간단하고 효과적이며 해석 가능한 KAN 기반 모델을 제안한다. 이 모델은 RevIN과 단일 MoK를 사용한다.

 

RMoK 모델의 작동 방식

  1. RevIN+정규화 연산: 학습 가능한 아핀 변환을 사용하여 각 변수의 입력 시계열을 정규화
  2. MoK 레이어: 정규화된 시계열 특성을 기반으로 예측 결과를 생성
  3. 예측 결과는 첫 번째 단계에서 사용된 아핀 변환 파라미터를 이용하여 RevIN-비정규 연산을 통해 원래의 분포 공간으로 비정규화된다.

훈련 단계에서는 게이팅 네트워크가 항상 몇몇 전문가에게 큰 가중치를 부여하는 winner-take-all 상태에 도달하는 경향이 있다. 이를 방지하기 위해 로드 밸런싱 손실 함수를 추가하여 전문가들이 고르게 중요성을 가지도록 유도한다. 로드 값을 계수의 변동계수로 계산하고, 그 제곱값을 추가적인 손실로 사용한다.

$$L_{load-balancing}=CV(loads)^2\quad (8)$$

총 손실 함수는 예측 손실과 로드 밸런싱 손실의 합으로, 가중치 $w_l$를 곱해준다.

$$L=MSE(Y,\hat{Y})+w_l\cdot L_{load-balancing}\quad (9)$$

Figure 2: The structure of RMoK and MoK layer.

5. Experiments

이 섹션에선 RMoK의 효과를 다양한 시계열 예측 벤치마크에서 성능, 실행 속도를 비교하고, KAN 및 MoK 레이어를 다른 네트워크 구조에 통합한 영향, 그리고 RMoK의 해석 가능성에 대한 실험을 포함한 광범위한 실험을 수행한다.

5.1 Experimental Settings

  • Dataset: 7개의 널리 사용되는 실제 데이터셋(ETT(h1, h2, m1, m2) Zhou et al.[2021], ECL, Weather Lai et al.[2018])에서 실험을 수행하며, 이들의 통계적 정보는 Table 1에 나와 있다.
  • Data Processing operation: TimesNet Wu et al.[2023]에서 사용된 방식과 동일하게, 훈련, 검증, 테스트 세트를 시간 순서에 따라 나누어 진행
  • Evaluation Metrics: 평균 제곱 오차(MSE) & 평균 절대 오차(MAE)
  • Baselines: 6개의 잘 알려진 예측 모델을 비교 모델로 선택
    - Transformer 기반: PatchTST Nie et al. FEDformer Zhou et al.
    - CNN 기반: TimesNet Wu et al.[2023] 및 SCINet Liu et al.[2022b]
    - Linear 기반: RLinear Li et al.[2023] 및 DLinear Zeng et al.[2023]

5.2 Can KAN-based Models get SOTA Performance?

이 섹션에선 KAN 기반 모델의 예측 성능을 최신 비교 모델과 비교하기 위한 실험을 진행한다. 제안한 RMoK의 두 가지 버전, RMoK-S(소형 버전)와 RMoK-B(기본 버전)를 사용하여, Transformer 기반, CNN 기반, Linear 기반의 6개 비교 모델과 7개의 벤치마크 데이터셋에 대해 비교한다.

 

실험 결과는 Table 2에 나와 있으며, KAN 기반 모델과 비교 모델의 가장 좋은 결과는 굵게 표시하고, 모든 모델 중 가장 좋은 결과는 빨간색으로 표시했다. 비교 모델의 결과는 기존 논문(Wu et al. [2023])에서 가져왔으며, RMoK의 결과는 고정된 시드([0, 1, 2, 3])로 4번 실험한 평균값이다.

 

실험 결과, 놀랍게도 RMoK가 대부분의 경우에서 가장 좋은 성능을 나타냈다. RMoK는 단일 레이어 방법으로, 변수 간의 상관 관계를 모델링하지 않음에도 불구하고 우수한 성능을 보였다. 이는 KAN 기반 모델이 시계열 예측(TSF) 작업에 효과적임을 충분히 입증하는 결과이다.

 

구체적으로, 7개의 데이터셋을 변수 수에 따라 두 그룹으로 나눌 수 있다. 변수 수가 적은 4개의 ETT 데이터셋에서는 RMoK가 대부분의 경우에서 비교 모델들을 능가했고, RMoK-S와 RMoK-B는 예측 길이(P)에 따라 각기 다른 장점을 보였다.

 

변수 수가 많은 Weather, ECL, Traffic 데이터셋에서는 RMoK-B가 RMoK-S보다 훨씬 더 우수한 성능을 보였으며, 이는 전문가 혼합 방식(MoE)이 많은 변수를 처리하는 데 적합함을 나타낸다. 또한, Traffic 데이터셋은 다양한 변수 간의 복잡한 시공간 상관 관계로 인해 Transformer 기반 방법(PatchTST)이 가장 좋은 결과를 보였으며, 우리는 간단한 RMoK는 다른 비교 모델들보다 훨씬 뛰어난 성능을 보였다.

5.3 Does KAN Outperform Linear?

이 섹션에서는 KAN 기반 모델과 Linear 기반 모델을 3개의 시계열 예측 데이터셋에서 비교하기 위한 절제 실험을 진행한다. 공정한 비교를 위해 RMoK-S의 4개의 KAN 전문가를 4개의 Linear 전문가로 교체하여 Linear 기반의 전문가 혼합 구조를 얻은 RMoL-S를 생성한다.

 

또한, MoK 레이어를 전체 KAN 또는 Linear로 교체하여 RWavKAN, RTaylorKAN, RLinear를 얻어, KAN 변형과 Linear 모델의 성능을 분석한다. 실험 결과는 Table 3에 있으며, 모든 결과는 4번 실험의 평균값이고 가장 좋은 결과는 굵게 표시하였다.

실험을 통한 세 가지 유용한 경험

  1. KAN 기반 모델이 대부분의 경우에서 Linear 기반 모델을 능가한다. 이는 KAN의 함수 표현 아이디어가 시계열의 주기성과 추세를 캡처하는 데 더 효율적이라는 추측에 기반한다.
  2. 전문가 혼합 구조(MoE)는 KAN과 Linear 모두에 적용 가능하며, 이는 게이팅 네트워크가 변수를 특징 전문가에게 할당하기 때문이다.
  3. KAN 기반 모델의 성능은 특정 함수에 영향을 받으며, 이는 시계열 데이터의 내재적 분포와 관련이 있을 수 있다.

5.4 Can KAN be Integrated into Other Methods?

이 섹션에선 KAn이 기존의 시계열 예측 모델에 플러그인으로 통합되어 성능을 향상시킬 수 있는지 확인한다. iTransformer를 기준 모델로 선택하고, 모든 어텐션 모듈의 선형 프로젝션을 다양한 KAN 변형과 MoK 레이어로 교체하여 실험을 진행한다.

 

실험은 ETT 데이터셋에서 수행되며, 공정한 비교를 위해 모든 실험에서 동일한 모델 하이퍼파라미터를 설정하고, hidden 차원은 512, 레이어 수는 2로 설정하여, 최적 학습률을 1e-2에서 1e-5까지 그리드 검색을 통해 찾고, 4번 반복하여 평균 결과를 Table 4에 나타낸다.

실험 결과, 다양한 KAN을 적용한 iTransformer는 ETTm1에서만 좋은 성능을 보였고, MoK를 적용한 iTransformer는 ETTh1과 ETTm1 모두에서 대부분의 경우 최상의 성능을 달성했다. 이 실험 결과는 MoK가 Transformer 기반 방법에 KAN을 통합하는 데 성공적인 형태임을 보여준다.

5.5 Are KAN-based Models Efficiency?

이 섹션에선 ETTh1 데이터셋(입력 길이 96, 예측 길이 720)에서 KAN 기반 방법과 기준 모델의 모델 파라미터 크기, 훈련 및 추론 속도를 보고한다. 모든 방법은 PyTorch를 사용하여 통합된 코드 라이브러리로 구현되었으며, 테스트 플랫폼은 NVIDIA A100 80GB GPU를 탑재한 서버이다. 훈련 배치 크기는 64, 추론 배치 크기는 1로 설정했다. 

 

KAN, WKAN, TKAN, JAKN은 각각 B-spline 함수, 웨이브렛 함수, Taylor 다항식, Jacobi 다항식(차수 4 or 6)을 사용하는 KAN 변형이다.

 

Table 5에 나타난 대로, KAN의 실행 속도는 구현 방식에 따라 달라지며, Taylor 다항식을 사용한 KAN 변형은 Linear 모델과 유사한 실행 효율성을 달성할 수 있다. 향후 하드웨어 최적화가 이루어지면 KAN의 효율성은 더 개선될 것으로 예상된다.

5.6 Are KAN-based Models Interpretable?

이 섹션에선 RMoK 모델의 해석 가능성을 분석한다. 먼저, 게이팅 네트워크의 출력을 시각화하여 변수-전문가 할당을 결정하는 방식을 보여주는 히트맵을 생성한다. 이 시각화는 RMoK가 다변량 시계열 예측 작업을 여러 개의 단변량 예측 하위 작업으로 단순화하는 방법을 보여준다. 그 후, RMoK가 각 하위 작업에서 실제 시간에 따라 변화하는 시스템에서 어떤 지식을 학습하는지 분석한다.

 

Weather 데이터셋에서 21개의 변수로 RMoK-S 모델을 훈련시키고, 테스트 세트의 모든 샘플에서 상위 1점수를 계산하여 히트맵을 생성했다. 이 결과는 각 변수와 특정 전문가 간의 관계를 시각적으로 보여주며, RMoK는 다변량 예측 작업을 여러 개의 단변량 예측 작업으로 단순화한다는 것을 시사화한다.

Weather 데이터셋의 온도 변수(10분마다 수집한 데이터)를 사용하여 B-spline 함수를 적용한 KAN 모델을 훈련시켰다. 이 데이터를 트렌드, 계절성, 잔차 항목으로 분해하고 시각화한 결과, 온도 시계열은 명확한 일일 주기성을 보였다. 이후, 과거 144시간의 데이터를 입력하여 다음 시간 단계의 상태를 예측하고, 훈련된 RMoK 모델에서 각 특성 차원의 가중치를 시각화했다. 이 시각화에서의 세 가지 주요 가중치가 나타났으며, 이는 각각 이전 날의 같은 시간, 인접한 시간, 주기의 절반에 해당하는 시점에 대응한다. 이러한 주기성 학습은 RMoK가 시계열 예측에 효과적임을 설명하는데 도움이 된다.

 

6. Conclusion

KAN의 다양한 스플라인 함수 변형으로 인해, 시계열의 분포 변동을 완화하기 위해 단일 계층 KAN 전문가 혼합 모델(RMoK)을 제안한다. 그리고 7개의 실제 데이터셋에 대한 실험 이후, KAN과 KAN 기반 모델이 시계열 예측 작업에 효과적이라는 것을 입증했다.