연구
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
arXiv:2604.08865v1 Announce Type: new Abstract: Proximal Policy Optimization PPO is central to aligning Large Language Models LLMs in reasoning tasks with verifiable rewards.
이 콘텐츠는 ArXiv AI 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.
원문 기사 보기 →