当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构

1周前 (08-21)Deepseek最新资讯124

  8月21日,DeepSeek正式发布其最新版本DeepSeek-V3.1,该版本采用了UE8M0 FP8 Scale的参数精度。据悉,这一技术规格专门为即将发布的下一代国产芯片进行优化设计。

  新版本在技术架构方面实现重要突破,引入了混合推理架构设计。该架构允许单一模型同时支持思考模式与非思考模式两种运行状态。用户可通过官方应用程序或网页端的深度思考按钮自由切换不同模式。

  与此同时,V3.1版本在运行效率方面取得显著提升。相比前代DeepSeek-R1-0528,新版本能够在更短时间内提供响应结果。通过思维链压缩训练技术,模型在输出token数量减少20%至50%的情况下,仍能保持相同的任务表现水平。

  在智能体能力方面,V3.1通过后训练优化实现了质的飞跃。新模型在工具使用、编程任务以及复杂搜索等智能体相关任务中表现获得较大幅度提升。在代码修复测评SWE与命令行终端环境测试中,该模型展现出更强的处理能力。

  技术规格方面,V3.1版本将上下文窗口扩展至128K,并新增对Anthropic API格式的支持。API接口同步升级deepseek,提供deepseek-chat与deepseek-reasoner两个不同接口,分别对应非思考模式和思考模式。

  值得注意的是,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。这些调整旨在更好地适配即将推出的国产芯片硬件环境。

  官方应用程序与网页端模型已同步升级为DeepSeek-V3.1版本。据了解,公司计划于2025年9月6日起执行新的API定价方案并取消夜间优惠政策。原文出处:DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布V3.1版本,专为国产芯片优化,支持双模式推理架构” 的相关文章

全网爆火的DeepSeek「UE8M0 FP8」,原来英伟达早已支持

全网爆火的DeepSeek「UE8M0 FP8」,原来英伟达早已支持

  NVIDIA PTX ISA(并行线程执行,PTX 指令集)文档里面早就已经出现了 .ue8m0 这个数据类型   这相当于DeepSeek V3.1 把原本只在硬件...

DeepSeek-V3.1发布中国加速AI商用落地

DeepSeek-V3.1发布中国加速AI商用落地

  DeepSeek-V3.1正式发布,明天人工智能整体会上涨,AI人工智能的利好消息还是特别多的,各方面也在加速推动AI人工智能的发展,包括建立超级数据中心deepseek,来训练AI人...

DeepSeek母公司总监被查!套取上亿佣金

DeepSeek母公司总监被查!套取上亿佣金

  幻方量化,是今年在科技圈惊艳四座的DeepSeek母公司,它们的创始人都是梁文锋。成立仅十年,其便因市场总监的行为卷入亿元级风暴。   据报道,李橙曾任职于招商证券,...

DeepSeek概念31日主力净流入49.43亿元,三六零、易点天下居前

DeepSeek概念31日主力净流入49.43亿元,三六零、易点天下居前

  7月31日,DeepSeek概念上涨0.27%,今日主力资金流入49.43亿元,概念股84只上涨,14只下跌。   主力资金净流入居前的分别为三六零(11.33亿元)...

你最爱的年轻足球运动员是谁?最好偏冷门一些

你最爱的年轻足球运动员是谁?最好偏冷门一些

  我总是有一种直觉,一种对未来事物的心电感应,所以我相信我会很幸运。接下去似有什么在漫漫的灯火里盈盈扑闪,只要我日夜踏过盆地那宽厚而坚实的山坡。  ...

DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO

DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO

  在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。   起初,OpenAI...