https://arxiv.org/abs/2507.18071
Group Sequence Policy Optimization
This paper introduces Group Sequence Policy Optimization (GSPO), our stable, efficient, and performant reinforcement learning algorithm for training large language models. Unlike previous algorithms that adopt token-level importance ratios, GSPO defines th
arxiv.org
배경
- 강화학습(RL)은 대규모 언어모델(LLM)의 추론 능력을 키우는 핵심 훈련 방법으로 자리 잡음
- 기존 대표 RL 알고리즘인 PPO(Proximal Policy Optimization)와 GRPO(Group Relative Policy Optimization)가 널리 쓰였으나,
- PPO → 가치함수에 지나치게 의존 → 메모리·계산량 부담, 확장성 문제
- GRPO → 가치모델을 제거했지만, 토큰 단위 중요도 비율(token-level importance ratio)를 잘못 적용 → 학습 불안정 → 대규모 모델 학습 시 모델 붕괴 발생
- 기존 방법론은 안정성과 효율성 면에서 한계가 있음
GSPO의 핵심 아이디어
GSPO는 최적화 단위를 보상 단위와 일치시키자라는 아이디어에서 출발한다.
Sequence-level Importance Ratio
- GRPO는 토큰별로
$$w_{i,t}(\theta)={\pi_\theta(y_{i,t}|x,y_{i,<t})\over \pi_{\theta_\mathrm{old}}(y_{i,t}|x,y_{i,<t})}$$
을 사용했는데 이때, 이 값은 샘플 하나로 추정되어 긴 응답일수록 노이즈가 누적되는 문제가 있음. - GSPO는 대신 시퀀스 전체를 대상으로 비율을 정의한다.
$$s_i(\theta)=\left({\pi_\theta(y_i|x)\over \pi_{\theta_\mathrm{old}}(y_i|x)}\right)^{1\over|y_i|}$$- $\pi_\theta(y_i|x)=\Pi_{t=1}^{|y_i|}\pi(y_{i,t}|x,y_{i,<t})$
- 즉, 응답 전체 확률의 비율
- ${1\over|y_i|}$ 거듭제곱: 길이 정규화를 통해, 긴 응답일수록 비율 값이 지나치게 커지거나 작아지는 문제를 완화
- 위 GSPO 수식을 전개하면
$$s_i(\theta)=\exp\left({1\over|y_i|}\sum_{t=1}^{|y_i|}\log{\pi_\theta(y_{i,t}|x,y_{i,<t})\over \pi_{\theta_\mathrm{old}}(y_{i,t}|x,y_{i,<t})}\right)$$
→ 토큰별 잡음을 평균화하여 안정적인 추정치를 확보
Sequence-level Clipping
- GRPO는 토큰별로 클리핑 → 불안정
$$\min(w_{i,t}(\theta)\hat A_i, \mathrm{clip}(w_{i,t}(\theta),1-\epsilon,1+\epsilon)\hat A_i)$$ - GSPO는 응답 전체를 하나의 단위로 클리핑 → 보상과 최적화 단위를 맞춤 → 불안정성 근본 해결
$$\min(s_i(\theta)\hat A_i, \mathrm{clip}(s_i(\theta),1-\epsilon,1+\epsilon)\hat A_i)$$
그래디언트 안정성
- GSPO 목적 함수의 그래디언트
$$\nabla_\theta J_\mathrm{GSPO}(\theta)=\mathbb{E}_{x,\{y_i\}}\left[{1\over G}\sum_{i=1}^{|y_i|}\nabla_\theta\log\pi_\theta(y_{i,t}|x,y_{i,<t})\right]$$- 모든 토큰에 동일한 가중치를 부여하여 안정적인 수렴이 가능해진다.
Experiments and Discussion
1. Empirical Results
- 훈련 안정성: GSPO를 사용한 훈련은 전반적으로 안정적으로 진행
- 우월한 훈련 효율성: GSPO는 GRPO 보다 현저히 높은 훈련 효율성을 보여줌

2. Curious Observation on Clipping Fractions
- GSPO는 전체 응답을 클리핑하는 반면, GRPO는 개별 토큰을 클리핑한다.
- GRPO: 시험 문제 하나하나만 틀리면 부분 점수 → 학습에 사용되는 토큰 수 많음 & 잡음이 들어감
- GSPO: 답안 전체가 이상하면 통째로 버림 → 학습에 사용되는 토큰 수 적음 & 잡음이 덜들어감
- 학습에 쓰이는 토큰 수가 훨씬 적음에도 불구하고 GSPO는 학습 효율과 성능이 더 좋았음.
→ GSPO는 시퀀스 전체를 기준으로 학습 신호를 만들기 때문에, 더 안정적이고 깨끗한 학습 신호를 제공하여 학습 효율이 높다.

3. Benefit of GSPO for MoE Training
- 기존 GRPO를 사용했을 때는 토큰 단위로 importance ratio를 계산하여 각 policy가 서로 다른 expert를 활성화하는 문제가 발생
- 이를 해결하기 위해 Routing Replay 기법(강제로 old policy의 expert 재사용)을 사용하여 안정화함.
→ 하지만 이 방식은 메모리·통신 비용을 늘리고, 모델 용량 활용을 제한한다는 단점이 있음

- GSPO는 시퀀스 단위의 importance ratio를 계산하여 응답 전체의 확률만을 비교하고, 토큰 단위 확률 변동에 크게 의존하지 않음
→ Routing Replay를 제거함으로써 메모리·통신 비용 절약, 모델 단순화
→ expert 라우팅 변동에도 학습 붕괴 없음
→ 모델 용량 활용(MoE 모델의 잠재력) 극대화
4. Benefit of GSPO for RL Infrastructure
- 학습 엔진(Megatron 등)과 추론 엔진(SGLang, vLLM 등) 사이에는 수치 정밀도 차이가 있기 때문에 기존 정책 하에서 샘플링한 응답의 우도를 정확히 계산하기 위해서는 학습 엔진으로 다시 계산하는 것이 필요했음
- 하지만, GSPO는 최적화를 위해 토큰 수준이 아닌 시퀀스 수준 우도만을 사용하여 개별 토큰의 작은 정밀도 불일치에 훨씬 더 관대함
- 결국 추론 엔진에서 바로 나온 우도를 그대로 RL 최적화에 사용할 수 있음
→ 계산 효율 향상
→ 부분 rollout이나 다중 턴 RL 시나리오에서 유리
→ 학습-추론 분리 구조에서도 활용 가능
Conclusion
- 학습 안정성: GRPO에서 자주 발생하던 모델 붕괴 현상 방지
- 학습 효율성: 같은 연산량 대비 더 빠르고 정확한 학습
- MoE 모델 특화 효과: 시퀀스 단위 확률만을 사용한 안정적 수렴 가능
- 인프라 단순화: 시퀀스 단위 확률만을 추론 엔진에서 바로 가져다 사용하여 학습-추론 분리 구조에서도 효율적 활용 가능