导 航
楼主: 逸雪霁蓝

2026年高质量发展建设共同富裕示范区---杭州经济城建发展综合(禁止政治人事讨论)

[复制链接]
 楼主| 发表于 昨天 20:53 | 显示全部楼层
辞去国外高薪工作,来余杭创业!如今服务超1000家品牌!蜜雪冰城、元气森林都是他们的客户……

        在浙江海外高层次人才创新园,有一家企业叫作观远数据,很多人可能并没有听过这个名字,但你喝过的蜜雪冰城、用过的珀莱雅,都在与它合作。观远数据为他们提供AI+BI(商业智能)解决方案,用数据分析与应用帮助企业智能决策。创始团队核心成员来自卡内基梅隆大学、浙江大学、上海交通大学、南京大学……

       2016年,张进与几位合伙人放弃国外高薪工作,离开老牌BI厂商MicroStrategy。当年AlphaGo战胜了李世石,人工智能的浪潮刚刚兴起。他们敏锐地发现,传统BI存在两大痛点:一是虽叫“商业”,却大多是技术人员使用,业务人员用不起来;二是虽说是“智能”,却只能呈现一堆数字,缺乏真正的决策智能。

       于是,他们从中看到了机遇,在浙江海外高层次人才创新园创立了观远数据。“我们的口号就是‘让业务用起来,让决策更智能’。”观远数据联合创始人兼CTO张进说。他回忆道:“我们考察了全国多地,最终还是选择了余杭。这里的领 导很关心企业,有新政会主动告知,申报高新技术企业时,也会帮我们优化材料,给了我们很大支持。”观远数据主要创始成员来自于卡内基梅隆大学、浙江大学、上海交通大学、南京大学。目前,公司共有300多人,其中产品技术研发人员占比超过一半。

       与蜜雪冰城合作,帮助完成门店选址、商品分析经过10年的发展,观远数据服务的客户已经超过1000家。宝洁、沃尔玛、山姆、百威这些耳熟能详的大品牌,都是观远数据的客户。在中国茶饮行业TOP20中,观远数据合作了70%的品牌,比如蜜雪冰城、霸王茶姬、奈雪的茶等等;在国货美妆TOP20中,合作了60%以上的品牌,比如珀莱雅、自然堂、上海家化、欧诗漫……

       蜜雪冰城在只有几千家门店的时候就选择了与观远数据合作。当时,蜜雪冰城想要在几年内把几千家门店扩张到几万家,门店选址是最大的难题。以往,蜜雪冰城总部专家靠本子记录数据,在Excel里用公式加减乘除打分,高于80分才能开店。但是这种方式无法融合全国众多专家的经验,同时,由于数据有限,看不到过往门店的成功率及背后的数据规律。

       因此,观远数据为蜜雪冰城打造了智能选址方案,整合大量数据,利用AI+BI挖掘选址规律,嵌入蜜雪冰城总部工作台,选址专家点击就能获得优质决策。另外,蜜雪冰城还通过观远数据的产品进行商品分析:哪些商品在哪些城市卖得好、什么时间卖得好、南北消费趋势有何差异,不同SKU的喜好如何变化。(SKU:最小存货单位。例如,同一款T恤,红色大码和蓝色小码就是两个不同的SKU。)

       对于试点推广的商品,还能提炼畅销要素,反推具备同样条件的门店增加铺量。流畅运算百亿行数据,创新方案输出欧美日常使用中,打开WPS或Excel,百万行数据就会让电脑卡顿,但在观远平台上,处理上亿行数据只是“小case”,有些企业百亿行的数据也能流畅运算。数据分析的频率甚至可以实现每分钟一次。

       张进还分享了一个生动的案例,长期合作客户元气森林的唐总曾表示:用了观远数据的产品后,没有期待直接的经济效益,但获得了更多改善经济效益的机会。过去没有人工智能时,每月只能做一次决策、一次复盘,一年只有12次机会;现在有了观远数据的AI+BI后,每周甚至每天都能做决策,改善机会比之前增加了300%-400%。企业的试错空间和机会空间都大幅扩大,能及时止损、找到更多增长机会。

       张进感慨道,过去是中国学习海外,如今在观远数据服务的跨国企业中,中国分部的创新方案正被反向输出给欧美总部,成为全球标杆



回复

使用道具 举报

 楼主| 发表于 昨天 21:00 | 显示全部楼层
领克首款GT概念跑车亮相2026北京车展!宽体设计肌肉感十足

       4月24日北京车展上,领克GT概念车迎来正式亮相。新车呈现纯正双门GT跑车姿态,宽体肌肉感与标志性尾灯极具辨识度和攻击性。领克首款GT概念跑车正式完成全球首秀,新车以极简美学与硬核性能的完美融合,彰显领克深耕性能赛道、向高端化转型的坚定决心

       车身线条借鉴“鹅卵石”的自然曲线,光滑流畅且无多余冗余设计,既优化了空气动力学表现,又传递出优雅与力量并存的视觉感受。隆起的轮拱肌肉感十足,溜背线条从A柱一气呵成延伸至车尾,勾勒出蓄势待发的动态姿态。车身尾部采用内凹的造型,搭配高耸的尾翼以及夸张的扰流扩散器,营造出极强的运动感。

       这款GT概念跑车的亮相,不仅填补了领克品牌在GT跑车领域的空白,更是中国品牌向高端性能跑车细分市场发起冲击的重要信号。作为中国性能车的开创者,领克早已在世界顶级房车赛事中斩获“七年九冠”的优异成绩,成立LPCC性能车俱乐部推动中国汽车运动文化普及,推出03+TCR赛车完善高性能汽车运动全生态布局,而领克10+刷新亚洲山脊赛道圈速、超越保时捷Taycan GT的成绩,更证明了其性能技术的硬实力。这款GT概念跑车正是领克将赛道技术转化为民用高端产品的关键一步,彰显了品牌从参数竞赛转向体验竞争的战略调整。

       值得一提的是,领克曾在世界顶级房车赛事中斩获 “七年九冠”,并在2020年,领克成立了LPCC性能车俱乐部,2025年,领克推出中国首款面向全球TCR体系的量产赛车03+TCR。此前,领克10+以1分40秒14的成绩,成功超越Taycan GT的山路圈速,刷新亚洲山脊赛道圈速第一。





回复

使用道具 举报

 楼主| 发表于 昨天 21:18 | 显示全部楼层
一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片

       4月24日消息,DeepSeek V4预览版官宣上线。根据DeepSeek的官方介绍,V4系列包含两个MoE模型:DeepSeek-V4-Pro总参数1.6T、激活参数49B,DeepSeek-V4-Flash总参数 284B、激活参数13B,两者均原生支持100万token上下文。

      在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更极端,分别压到10%和7%。DeepSeek自己给这代模型的定位是“preview version”,官方在报告中明确表示,V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro,“发展轨迹大约滞后前沿闭源模型3至6个月”。换句话说,V4预览版是把长上下文成本重构,为下一阶段test-time scaling和长程任务铺路的基础设施发布,没有强调能力上的跨越升级。

       两款模型、三档推理:V4预览版到底是什么?根据DeepSeek的官方介绍,V4系列包含两个MoE模型:DeepSeek-V4-Pro总参数1.6T、激活参数49B,DeepSeek-V4-Flash总参数284B、激活参数13B,两者均原生支持100万token 上下文。真正值得关注的是成本曲线。

       在1M token的上下文设置下,V4-Pro的单token推理FLOPs 只有V3.2的27%,KV Cache只有 10%;V4-Flash更极端,分别压到10%和7%。换句话说,上下文从V3.2的128K扩到V4的1M,理论上放大了近8倍,但单token算力需求反而下降了。API价格沿袭了DeepSeek一贯的“打穿底”思路。V4-Pro每百万token输入1元(缓存命中)或 12元(缓存未命中),输出24元;V4-Flash分别为0.2元、1元、2元。

       每款模型都提供三档推理强度:Non-think(直出)、Think High(常规深度思考)、Think Max(在 system prompt 里注入强指令、把上下文和输出长度拉满)。Max模式是为了榨出模型的能力上限——V4-Pro-Max在HLE测试中从Think High的34.5分升到 37.7分,Apex Shortlist 测试中从85.5升到90.2,代价是输出token翻倍。

       根据DeepSeek披露的详细基准测试数据,在知识与推理类测试中,DeepSeek-V4-Pro-Max 在Apex Shortlist(90.2%)和 Codeforces(Rating 3206)两项硬核推理 / 编程任务中拔得头筹,展现了极强的逻辑与算法能力;而 Gemini-3.1-Pro-High在 SimpleQA Verified(75.6%)中领先,Claude 和GPT则在各项目中互有胜负,整体差距不大。

       在智能体能力相关的测试中,四款模型在SWE Verified任务上打成平手(均达到80.6%),但 DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)两项任务上同样表现突出,体现了在复杂指令执行与工具调用场景下的优势。DeepSeek表示,相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。“使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。”

       DeepSeek官方强调,基于丰富的世界知识:V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1——Gemini-3.1-Pro-High在MMLU-Pro(91.0)、SimpleQA-Verified(75.6%)、GPQA Diamond(94.3%)等通用知识问答中领先。

       另外,在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩,DeepSeek将其称之为“世界级的推理性能”。定位为经济性模型的V4 Flash在世界知识储备方面比DeepSeek-V4-Pro稍逊一筹,但也展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。

       在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当,但在高难度任务上仍有差距。V4最核心的技术改动在注意力层。传统Transformer的注意力机制,每个token要和前面所有token都算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍,这是长上下文一直跑不起来的根本原因。

       V4的做法是把注意力拆成两种,交替叠用。一种叫CSA(压缩稀疏注意力),它先把每4个token的KV缓存合并成一条摘要,再让每个query只在这些摘要里挑出最相关的top-k条去算注意力。相当于既压缩了“要看的内容”,又只挑“值得看的”去算。另一种叫HCA(重压缩注意力),它的压缩率更激进,把每128个token合并成一条,但对剩下的摘要做稠密注意力,不做稀疏挑选。





      
回复

使用道具 举报

 楼主| 发表于 昨天 21:22 | 显示全部楼层
本帖最后由 逸雪霁蓝 于 2026-4-24 21:24 编辑

       两种交替叠起来,再加一个滑动窗口分支处理“离得近的token之间的细节依赖”。这是一套“粗粒度+细粒度、稀疏+稠密”的组合拳。把这套方案和DeepSeek过去两年的技术脉络连起来看,变化就清晰了:V2、V3走的是参数稀疏化——总参数很大,但每token只激活一小部分专家;V4在此之外又开了一条上下文稀疏化的路——KV压缩、top-k选择、分层压缩率。这是DeepSeek第一次把“稀疏化”的刀动到Transformer的核心结构里

       除了注意力层,V4还有两处此前版本没动过的改造。一是把传统残差连接升级为mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定;二是用Muon优化器替代大部分模块原本用的AdamW,收敛更快、训练更稳。这是DeepSeek第一次同时动Transformer的注意力、残差、优化器这三处核心结构

       比架构改动更值得注意的是后训练方法的切换。V3.2用的是“混合RL”,一次性用强化学习优化多个目标。V4换成了“分化再统一”的两步走:第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型。这些专家先用该领域的高质量数据做监督微调,再用GRPO算法做强化学习,每个专家都在自己的细分赛道上跑到最优。第二步,用一种叫On-Policy Distillation(OPD,在策略蒸馏)的方法,把十多个领域专家“合成”回一个统一的学生模型。学生自己生成回答,然后对每个回答,去匹配“最懂这个问题”的专家的输出分布,通过logit级对齐,把能力吸收进来。

       你可以讲这种做法理解为,把一堆尖子生蒸馏了。这套流程的工程难度在于:同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的hidden state,训练时按教师索引排序样本,保证任意时刻GPU显存里只驻留一个teacherhead。换个说法,V4的能力不再靠一个模型从头学,而是先让不同专家在自己的赛道跑到顶,再把它们收编进同一套权重里。这种思路绕开了传统“混合 RL”容易导致的能力互相干扰问题。

       DeepSeek-V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。DeepSeek自述V4-Pro的Agent能力“优于Sonnet 4.5,交付质量接近Opus 4.5非思考模式,但仍与Opus 4.6思考模式存在一定差距”。

       值得注意的是,V4在Agent方向做了几处专项优化:后训练阶段把Agent作为与数学、代码并列的独立专家方向单独训练;工具调用格式从JSON换成带特殊token的XML结构,用来降低转义错误;跨轮次推理痕迹在工具调用场景下完整保留,不再像V3.2那样每轮清空;此外DeepSeek自建了一套名为DSec的沙箱平台,单集群可并发管理数十万个沙箱实例,用来支撑Agent强化学习训练和评测。

       昇腾在等V4,V4也在等昇腾,比起技术本身,V4这次发布更受关注的还有与华为昇腾的协同。V4技术报告第3.1节专门写了一句:“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案。”这是DeepSeek官方第一次在正式文档中把华为昇腾和英伟达并列写进硬件验证清单。

       报告同时披露,V4的MoE专家权重和稀疏注意力索引器都采用FP4精度,FP4(mxFP4)恰好是华为3月发布的昇腾950PR芯片的原生支持精度。华为官网后续在全联接大会 2025 的主题演讲中确认,昇腾950系列新增支持 MXFP4 等低精度格式,其中950PR面向Prefill和推荐场景,并采用华为自研 HiBL 1.0,容量128GB,带宽1.6TB/s。

       另外,面向训练场景的950DT计划今年四季度推出。DeepSeek在官宣文章中还表示:“预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。DeepSeek在发布文章结尾引用了《荀子·非十二子》中的一句话:“不诱于誉,不恐于诽,率道而行,端然正己。”尽管被传首次开放了融资,但DeepSeek依然保持了一个超然但坚实的发展思路。



回复

使用道具 举报

 楼主| 发表于 昨天 23:53 | 显示全部楼层
本帖最后由 逸雪霁蓝 于 2026-4-25 00:24 编辑

华为:紧密协同DeepSeek V4,昇腾超节点全系支持

       4月24日,DeepSeek V4-Pro和DeepSeek V4-Flash正式发布并开源。华为计算官方表示,昇腾一直同步支持DeepSeek系列模型,本次通过双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型

       昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。华为还表示,昇腾A3 64卡超节点结合大EP模式部署,通过vLLM引擎可实现DeepSeek V4-Flash在8K/1K输入输出场景下的2000+TPS单卡decode吞吐。昇腾A3同步支持DeepSeek V4-Pro的推理部署,且性能还在持续优化中

       据介绍,此次发布的DeepSeek V4系列将模型上下文处理长度从128K扩展至1M,实现近10倍的容量提升。作为国产算力生态的重要合作伙伴,昇腾长期同步支持DeepSeek系列模型迭代。官方表示,昇腾A2、A3及950全系列产品适配DeepSeek V4-Flash、DeepSeek V4-Pro。

       DeepSeek V4发布后,华为云也发文表示,华为云MaaS模型即服务平台已为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。在此次新模型适配过程中,华为云在系统层、算子层和集群层的关键能力上协同,分别从调度效率、计算效率和数据流转效率三个维度保障新模型快速适配与高性能落地。

      附带一提,DeepSeek在DeepSeek-V4预览版公告中表示,目前Pro的服务吞吐十分有限,但预计下半年昇腾950超节点批量上市后,价格会大幅下调





回复

使用道具 举报

 楼主| 发表于 昨天 23:58 | 显示全部楼层
刘非:把建设人工智能创新发展第一城作为首要任务 为建设更高水平创新活力之城提供有力支撑

       4月22日下午,省 委常委、杭州市 委书 记刘非专题研究人工智能创新发展工作。他强调,要深入学习贯彻习 近平总书 记关于人工智能的重要论述和考察浙江重要讲话精神,认真落实省 委关于创新浙江建设的部署,把建设人工智能创新发展第一城作为首要任务,统筹推进“开源生态、具身智能、制度创新”三大专项行动和“模型攀峰、算力筑基、数据融通、应用示范、人才培优、智能经济聚链”六大基础工程,以创新引领新突破、塑造新优势,为建设更高水平创新活力之城提供有力支撑。

       刘非指出,在全市上下共同努力下,我市争创全国人工智能创新发展第一城各项工作不断取得新成效。要把握人工智能发展趋势和规律,谋深做实“两篇大文章”,以“走在前、作示范”的标准,更好发挥杭州特色优势,加快推动人工智能技术创新和产业创新。要把创新生态建设放在突出位置,按照人才成长“最佳沃土”、企业发展“最好摇篮”、融合协同“最高质效”、政策服务“最为有感”要求,大力引进顶尖人才、青年人才,培育壮大科技领军企业,支持专精特新企业和科技型中小企业发展,优化金融服务,做强产业基金,迭代升级人工智能政策服务,加快建设一流创新生态。

       刘非强调,要持续加强基础研究,加大研发投入力度,集中力量攻克关键核心技术,加快构建人工智能基础软硬件系统。要统筹推进算力基础设施建设和算力资源调度服务,深化数据资源开发利用和开放共享,推进语料库和高质量数据集建设,加快模型架构创新,不断提高开源大模型的全球影响力。要加大应用场景开放力度,加快建设人工智能应用中试基地,促进人工智能终端和服务消费。要推动人工智能科技创新与产业创新深度融合,积极推进“人工智能+制造”,不断壮大核心产业规模

       刘非指出,要着力推动制度创新,在完善相关法规、政策制度、应用规范、伦理准则等方面积极探索,为人工智能应用筑牢安全保障。要深入开展人工智能国际合作,着力打造国际顶尖赛事会展品牌,大力引育行业组织协会,不断提升核心竞争力和国际影响力。

刘非调研人工智能创新发展工作,在杭州曼孚科技有限公司与企业研发人员交流
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|高楼迷

GMT+8, 2026-4-25 11:33 , Processed in 0.040245 second(s), 3 queries , Redis On.

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表