当前位置:首页 > 研报详细页

北大对齐小组-DeepSeek~R1 \ Kimi 1.5及类强推理模型开发解读-250304

研报作者:陈博远 来自:北大对齐小组 时间:2025-03-04 14:51:21
  • 股票名称
  • 股票代码
  • 研报类型
    (PDF)
  • 发布者
    wi***np
  • 研报出处
    北大对齐小组
  • 研报页数
    76 页
  • 推荐评级
  • 研报大小
    8,824 KB
研究报告内容
1/76

核心观点

- DeepSeek-R1通过强化学习(RL)引入了强推理的慢思考范式,推动了技术的新边界。

- 该模型的创新算法GRPO及其技术细节为长度泛化和推理范式的涌现提供了支持。

- 对比分析显示,强化学习驱动的强推理路径在社会和经济效益上具有显著优势,同时探讨了模态穿透和形式化验证等未来方向。

推荐给朋友: 收藏    |      
  • 大家关注