新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 五粮液一季度净利增长5.8%,今年营收与宏观经济指标保持一致
  • 澳门雷锋彩六:弘扬雷锋精神,助力公益活动
  • 美媒:美撞机事故中“黑鹰”飞行员未听从教练指令
  • 美国国家科学基金会主任辞职后 又有数百项基金会资助项目被终止
  • 如何做大中国拳击产业的蛋糕?这项赛事给出办赛新思考
  • 空客敲定悬而未决的Spirit Aero收购协议
  • 摩根大通调查:未来一年美国或出现滞胀 且投资者普遍不看好美元
  • 昨晚马9点30开什么号?揭秘昨晚热门直播平台的神秘号码
  • 伊朗南部港口爆炸已造成561人受伤,海关称源头或为危险品和化学品仓库
  • 原银保监会副主席梁涛:AI大模型技术与保险行业的融合是大势所趋
  • 对话海博思创联合创始人舒鹏:未来储能细分领域应用,一定是头部企业的第二个增长极
  • 4月28日美股成交额前20:谷歌母公司Alphabet发售40亿美元债券
  • 正版澳门传真2025:揭秘未来澳门娱乐业的全新风向标
  • 共进股份2025年第一季度开局良好 净利润同比增长267.63%
  • QFII大举加仓这些股
  • 关键词: