导 航
楼主: 逸雪霁蓝

2025年高质量发展建设共同富裕示范区---杭州经济城建发展综合(禁止政治人事讨论)

  [复制链接]
 楼主| 发表于 昨天 23:55 | 显示全部楼层
开源最强,逼平闭源顶流!DeepSeek发布V3.2两款正式模型,覆盖日常与极致推理场景

       12月1日晚,DeepSeek发布两款正式版模型,分别为DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在推理能力上全球领先。前者主打日常应用场景,后者在多项国际竞赛中获得金牌。这标志着开源模型与闭源商业模型的性能差距进一步缩小。

       两款模型有着不同的定位。DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。

       DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。V3.2-Speciale模型成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。

       DeepSeek-V3.2定位“平衡实用”。官方数据显示,其在推理基准测试中达GPT-5水平,略低于Gemini-3.0-Pro。相比同类思考模型,其显著缩短输出长度,降低计算开销与等待时间,适用于日常问答、通用Agent任务及真实场景工具调用。DeepSeek官微称其“在Agent评测中达到当前开源模型最高水平”,且未针对测试工具进行特殊训练。

       DeepSeek-V3.2-Speciale则为“极致推理”而生,是V3.2的长思考增强版,融合DeepSeek-Math-V2定理证明能力。该版本未优化日常对话,不支持工具调用,专攻复杂数学推理、编程竞赛与学术研究,消耗Token更多,成本更高。据DeepSeek公布的数据,Speciale在多个推理基准测试中超越谷歌最先进的Gemini3 Pro。具体来看,在美国数学邀请赛、哈佛MIT数学竞赛、国际奥林匹克数学竞赛等测试中,V3.2-Speciale都超过了Gemini3 Pro,但在编程、理工科博士生测试中略逊于谷歌。

       同时,Speciale模型斩获了IMO(国际数学奥林匹克)、ICPC World Finals(国际大学生程序设计竞赛全球总决赛)及IOI(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。

       DeepSeek在9月底发布实验版V3.2-Exp时,提出了稀疏注意力机制(DSA),希望大幅降低计算复杂度。在经过两个月的实验后,DeepSeek确认了稀疏注意力机制的有效性,并表示,在不牺牲长上下文性能的前提下,团队解决了关键的计算复杂性问题。此次发布的两款模型均引入了这一机制。据DeepSeek,除了在多个推理基准测试中,V3.2的性能大幅提升外,在智能体场景中,V3.2也成为一种具有成本效益的替代方案,不仅缩小了开源模型与前沿专有模型之间的性能差距,成本也显著降低

       目前,DeepSeek的官方网页端、App 和 API 均已更新为正式版 DeepSeek-V3.2,但增强的Speciale版本目前仅以临时API服务形式开放,供社区评测与研究。

       在海外社媒上,有网友认为,DeepSeek 此次发布是了不起的成就,“匹配 GPT-5和Gemini3 Pro的开源模型出现了,差距正式消除。”DeepSeek不断证明,严谨的工程设计可以超越单纯的参数规模。但如同DeepSeek所述的那样,我们仍需正视开源与闭源在整体性能上的差距,不断突破开源的边界。








回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|高楼迷

GMT+8, 2025-12-2 04:04 , Processed in 0.030741 second(s), 3 queries , Redis On.

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表