当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

2个月前 (02-25)Deepseek最新资讯134

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。

据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。

贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。

上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

按下AI产业发展“加速键”,湖北移动全面加快DeepSeek部署

按下AI产业发展“加速键”,湖北移动全面加快DeepSeek部署

今年以来,国产AI大模型DeepSeek热度持续攀升,引发国资央企新一轮合作热潮,近日,记者从中国移动湖北公司获悉,在武汉光谷未来科技城——中国移动大模型产业创新基地(湖北),依托九天大模型MaaS平...

TCL实业接入DeepSeek后在哪些方面有帮助?

TCL实业接入DeepSeek后在哪些方面有帮助?

TCL实业接入DeepSeek后,将在多个方面获得显著帮助,具体如下:提升产品智能化水平:DeepSeek的人工智能技术将使TCL的智能家居、移动通讯等产品能够更好地理解和处理自然语言,实现精准的语音...

商业银行接入DeepSeek大赛:谁抢先,谁落后

商业银行接入DeepSeek大赛:谁抢先,谁落后

银行正加速DeepSeek系列模型本地化部署工作,“含D量”比拼战局愈演愈烈。3月8日,工商银行宣布于近期完成DeepSeek最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系。据北...

宝马多款新车将应用DeepSeek功能

宝马多款新车将应用DeepSeek功能

4月27日记者从宝马集团获悉,今年三季度,多款搭载第九代BMW操作系统的中国在售新车,将率先应用DeepSeek功能。明年起面世的宝马国产新世代车型亦将“上车”DeepSeek,实现AI与智能座舱的深...

怎么评估 Deepseek 模型的性能?

怎么评估 Deepseek 模型的性能?

怎么评估 Deepseek 模型的性能?要全面评估DeepSeek模型的性能,可以从以下几个关键维度进行分析:模型性能:准确性:评估模型在特定任务上的表现,如问答、翻译、文本生成等。准确性是衡量模型能...

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

IT之家 2 月 24 日消息,上海兆芯集成电路股份有限公司今日发文宣布:近日,基于兆芯高性能通用处理器的 PC 终端、工作站以及服务器成功实现 DeepSeek-R1-Distill 模型(1.5B...