快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

时间：2025-04-25 11:15:03 栏目：新闻资讯浏览：53

热点栏目

　　（01024）早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

（图侵删）

　　4月23日，快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

　　快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

　　通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

五粮液一季度净利增长5.8%，今年营收与宏观经济指标保持一致

澳门雷锋彩六：弘扬雷锋精神，助力公益活动

美媒：美撞机事故中“黑鹰”飞行员未听从教练指令

美国国家科学基金会主任辞职后又有数百项基金会资助项目被终止

如何做大中国拳击产业的蛋糕？这项赛事给出办赛新思考

空客敲定悬而未决的Spirit Aero收购协议

摩根大通调查：未来一年美国或出现滞胀且投资者普遍不看好美元

昨晚马9点30开什么号？揭秘昨晚热门直播平台的神秘号码

伊朗南部港口爆炸已造成561人受伤，海关称源头或为危险品和化学品仓库

原银保监会副主席梁涛：AI大模型技术与保险行业的融合是大势所趋

对话海博思创联合创始人舒鹏：未来储能细分领域应用，一定是头部企业的第二个增长极

4月28日美股成交额前20：谷歌母公司Alphabet发售40亿美元债券