当前位置:首页 > 研报详细页

DeepSeek-DeepSeek~V3技术报告-250206

研报作者: 来自:DeepSeek 时间:2025-02-06 10:11:14
  • 股票名称
  • 股票代码
  • 研报类型
    (PDF)
  • 发布者
    em***ng
  • 研报出处
    DeepSeek
  • 研报页数
    53 页
  • 推荐评级
  • 研报大小
    4,820 KB
研究报告内容
1/53

核心观点

- DeepSeek-V3是一款强大的混合专家语模型,总参数达到671B,具有高效推理和成本效益的训练能力。

- 该模型通过多头潜在注意和负载平衡策略实现了显著的性能提升,并在148万亿高质量token上进行了预训练。

- 评估结果显示,DeepSeek-V3的表现优于其他开源模型,且其训练过程稳定,无不可恢复的损失。

推荐给朋友: 收藏    |      
  • 大家关注