논문/RL

[논문 리뷰] MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

khseon7 2025. 8. 11. 20:56

https://arxiv.org/abs/2508.05592

 

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Large language models have achieved substantial progress in mathematical reasoning, yet their advancement is limited by the scarcity of high-quality, high-difficulty training data. Existing synthesis methods largely rely on transforming human-written templ

arxiv.org

LLMs은 수학적 추론에서 상당한 발전을 이루었지만, 기존 데이터 합성 방식이 주로 사람이 만든 문제 템플릿을 변형하는데 의존하여 다양성이 확장성이 떨어진다. 이로 인해 고품질·고난이도 학습 데이터가 부족하다는 병목 현상이 생기고 있다. → MathSmith 프레임워크를 통해 이를 해결하고자함

MathSmith 프레임워크

1. 개념-설명 수집 (Concept-Explanation Collection)

  • PlanetMath에서 수학 관련 페이지 크롤링하고, 순수하게 수학 개념에만 초첨이 맞춰지도록 필터링
  • GPT-4o API를 사용하여 각 페이지의 핵심 개념을 자동 요약하고, 이를 통해 "개념 + 설명(Concept + Explanation)" 쌍을 생성
  • 생성된 데이터 규모: 11,000개

2. 지도학습 사전 미세조정 단계 (SFT)

  • 구축된 개념 컬렉션에서 무작위 다섯 개의 "개념 + 설명" 쌍을 샘플링하여, 이를 seed input으로 GPT-4o에 제공하고, 주어진 지침에 따라 샘플링된 개념과 일치하는 수학 문제를 생성하도록 유도
    • Rationale section: 문제 구성 과정의 단계별 설명
    • Problem section: 최종 문제 제시
  • 합성된 문제의 난이도를 한층 높이고 고급 수학적 추론을 유도하기 위해, 기존의 어려운 올림피아드 문제에서 얻은 인사이트를 반영하여 9가지 사전 정의된 난이도 전략을 설계(각 생성 문제는 최소 두 가지 난이도 전략 포함해야 함)
  • 이 과정을 통해 약 8,000개의 cold-start sample을 생성하고, 이를 사용해 Qwen3-8B 모델을 Fine-Tuning한다. → MathSmith-SFT

3. 강화학습 단계 (RL)

MathSmith의 RL 보상 함수는 크게 두 부분으로 나눔:

  1. 구조적 보상(Structural Reward) - 문제 형식이 올바르고 reasoning step 수가 규격에 맞는지
    • $r_\mathrm{format}$
      • 문제 출력이 "rationale"(이유·풀이 과정)과 "problem"(최종 문제) 두 부분으로 나눠져 있는지
      • 둘 다 있으면 1점, 아니면 0점
    • $r_\mathrm{step}$
      • reasoning step 수 $N_\mathrm{step}$이 정확히 5가 되도록 유도 → 프롬프트 템플릿과 일치하게 훈련시키기
      • $N_\mathrm{step}\leq5$ → ${N_\mathrm{step}\over 5}$ 비율로 점수 부여
      • $N_\mathrm{step}>5$ → 초과분에 따라 점수 감점 - $\max(1-{N_\mathrm{step}-5\over 5},0)$
    • $r_\mathrm{structure} = \alpha_\mathrm{format}\cdot r_\mathrm{format} + \alpha_\mathrm{step}\cdot r_\mathrm{step}$
  2. 추론 기반 보상(Reasoning-based Reward) - 문제 복잡도정답 일관성 평가
    • $r_\mathrm{complexity}$
      • Teacher model(Qwen3-30B-A3B)로 문제를 풀게 하고, CoT reasoning trace의 토큰 길이 측정
      • 긴 reasoning trace → 더 복잡하고 깊은 문제일 가능성이 높다고 가정
      • 길이를 최대값 $T_\mathrm{max}$로 정규화하여 0~1 범위 점수 부여
      • $r_\mathrm{complexity}={1\over {K\cdot T_\mathrm{max}}}\sum_{i=1}^K\ell^{(i)}_\mathrm{cot}$
    • $r_\mathrm{consistency}$
      • Teacher model에게 K(논문에서 K는 5로 설정)번 풀게 해서, 절반 이상 동일한 정답이 나오면 1점, 아니면 0점
      • 문제의 모호성 줄이고, 해석이 명확하게 하나로 귀결되도록 함
    • $r_\mathrm{reasoning} = \beta_\mathrm{complexity}\cdot r_\mathrm{complexity}+\beta_\mathrm{consistency}\cdot r_\mathrm{consistency}$
  3. 최종 보상
    • $r_\mathrm{total} = r_\mathrm{structure} + r_\mathrm{reasoning}$
  4. 최적화 방법
    • GRPO(Group Relative Policy Optimization) 사용
    • G개의 문제를 생성 → 각 문제를 보상 함수로 평가
    • 그룹 내 평균·표준편차로 정규화해 상대적 advantage 계산
      $$\hat A_{i,t}={R_i-\mathrm{mean}(\{R_j\}^G_{j=1})\over \mathrm{std}(\{R_j\}^G_{j=1})}$$
    • KL penalty로 기존 정책(MathSmith-SFT)에서 너무 벗어나지 않도록 조절
      $\mathcal J_\mathrm{GRPO}(\theta)=\mathbb E_{c,\{o_i\}\sim\pi_{\theta_\mathrm{old}}}\bigg[{1\over G}\sum_{i=1}^G{1\over |o_i|}\sum_{t=1}^{|o_i|}\mathcal L_{i,t}-\beta\mathbb D_\mathrm{KL}(\pi_\theta||\pi_\mathrm{ref})\bigg]$,
      where $\mathcal L_{i,t}=\min(r_{i,t}(\theta)\hat A_{i,t}, \mathrm{clip}(r_{i,t}(\theta),1-\epsilon, 1+\epsilon)\hat A_{i,t}),\\ r_{i,t}(\theta)={\pi_\theta(o_{i,t}|c,o_{i,<t})\over \pi_{\theta_\mathrm{old}}(o_{i,t}|c,o_{i,<t})}$
  5. 모델 버전 차이
    • MathSmith-HC → 복잡도 + 정답 일관성 둘 다 포함
    • MathSmith-Hard → 정답 일관성 빼고 복잡도만 사용

Weakness-Focused Improvement Pipeline

  1. Practice Set Q 생성
    • MathSmith 생성기를 사용해 1000개의 문제(Q) 생성
    • 각 문제 $q \in Q$에 대해, Qwen3-30B-A3B 모델로부터 문제 풀이를 32번 샘플링
    • 가장 빈번히 등장하는 답안을 기준 정답(reference solution)으로 선정
    • 품질 검증을 거쳐 923개 고품질 문제를 최종 선별
  2. Variant Set $\mathrm{Q}'$ 생성
    • 각 문제 $q \in Q$가 갖는 개념 집합 $c$을 기반으로
    • MathSmith 생성기 $\mathcal G(c)$를 조건부로 사용해 변형 문제 $q'$를 생성
    • 이렇게 해서 개념별 특성에 맞춘 변형 문제 집합 $Q'$ 형성
  3. Fine-Tuning
    • 원래 모델 $\mathcal M_\mathrm{base}$를 Q'의 일부 샘플을 이용해 지도학습으로 반복 미세조정
    • Q 문제 집합에 대한 정확도 $Acc_Q(\mathcal M_\mathrm{imp}\ge \tau)$, $\tau$는 사전에 정한 임계값
    • 이때 업데이트된 모델을 개선된 모델 $\mathcal M_\mathrm{imp}$

Experiment Setups

1. Datasets and Evaluation Metrics

수학적 추론을 평가하기 위해, 난이도에 따라 두 가지 범주로 나눔

  • 쉬움 & 중간 난이도: GSM8K, MATH
  • 어려움 난이도: AIME 2024, AIME 2025, OlympiadBench

2. Baseline

  1. OpenMathInstruct: LLM에게 context 예시를 주어 문제를 생성하며, 난이도에 대한 명확한 제어 없이 해답 확장에 의존
  2. NuminaMath: CoT 가이드를 통한 샘플링으로 기존 문제를 재구성하며, 생성된 문제를 기존 수학 벤치마크와 맞춘다.
  3. MetaMath: 문제를 뒤집기, 바꾸기, 역구성 등의 구조적 재작성 기법으로 다양성을 높인다.
  4. PromptCoT: 올림피아드 난이도를 목표로 하며, 샘플된 수학 개념을 조건으로 하여 다단계 추론 계획을 통해 문제 생성을 안내

※ short-CoT: 간단하고 직접적인 추론, long-CoT: 심층 추론

Results and Analysis

1. Overall Performance

  • 여러 벤치마크에서 SOTA 성능을 달성
  • 난이도가 높아질수록 특히 long-CoT 설정에서 MathSmith-HC가 기존 방법들보다 훨씬 더 큰 성능 향상을 보여줌
  • GSM8K가 일상 언어로 구성된 단어 문제라, MathSmith의 형식과 난이도가 달라 모델 성능에 차이가 생긴다.

2. Effect of Dataset Scaling

  • 난이도가 높고 문제 유형이 다양하며 데이터 양이 충분한 Olympiad 벤치마크를 사용해 확장성 평가를 진행
  • 아래 그림에서 보이듯, MathSmith-HC는 50k ~ 200k까지 데이터 양이 늘어남에 따라 baseline을 지속적으로 능가하며, 데이터 양이 많아질수록 성능 차가 더 커진다.

3. Effect of Model Scaling

  • 모델 크기가 작은 경우(ex. 1.7B, 4B)에서는 약간 성능이 떨어지는데, 이는 복잡한 문제 학습 용량 부족 때문으로 보임
  • 모델 크기가 커질수록 MathSmith-HC가 베이스라인을 꾸준히 앞서며, 더 큰 모델일수록 고난이도 합성 데이터로부터 더 깊은 추론 능력을 얻는 데 유리함

4. Analysis of Problem Difficulty

  • 난이도 평가를 위해, Qwen3-30B-A3B의 생각 모드에서 생성된 추론 흔적의 평균 토큰 길이를 측정
  • 아래 그림에서 보이듯, MathSmith-HC와 MathSmith-Hard는 모든 데이터셋에서 가장 긴 추론 흔적을 만들어, 강화학습 단계가 문제 복잡성을 더욱 향상시키고 깊은 추론 행동을 장려함을 시사한다.

5. Impact of Weakness-Focused Problem Generation

  • Weakness-Focused problem은 동일 개수의 random sampling보다 꾸준한 정확도 향상을 보여줌
  • 특히 어려운 문제에서 효과가 큼.

6. Ablation Analysis

  • 문제 사용 가능성을 정량화하기 위해, 생성된 문제 중 올바른 형식이며 교사 모델이 유효한 답을 낼 수 있는 문제 비율(Available Ratio)을 정의
  • MathSmith-HC가 높은 Available Ratio와 어려운 문제에 대한 강력한 성능을 동시에 달성