当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

7个月前 (02-25)Deepseek最新资讯355

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。

据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。

贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。

上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

南京市政务云基于华为云Stack成功部署上线满血版DeepSeek-R1-671B

南京市政务云基于华为云Stack成功部署上线满血版DeepSeek-R1-671B

近期,南京市政务云基于华为云Stack成功部署上线满血版DeepSeek-R1-671B,实现了“南京+DeepSeek满血版”的人工智能政务应用一体化赋能升级。...

华为鸿蒙电脑接入DeepSeek:生产力更强

华为鸿蒙电脑接入DeepSeek:生产力更强

驱动之家5月10日消息,在今日举办的星耀智能手表技术与生态发布会上,星耀智能手表正式闪耀登场。据介绍,星耀智能手表搭载了StarOS 3.0,采用星耀自研内核,带来精准、便捷、健康、时尚、互联的体验。...

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

在数字化浪潮席卷全球的当下,国家大力倡导发展“新质生产力”,加速推动产业数字化、智能化转型。作为保险行业的领军企业,平安人寿紧抓时代机遇,拥抱技术革新,率先开启“数智行动”,积极推进DeepSeek模...

DeepSeek的列车,有人准备躺上去了

DeepSeek的列车,有人准备躺上去了

拥挤的DeepSeek列车,快关不上门了。据说,全国的大城市,都在为错过DeepSeek彻夜难眠。江苏省委机关报《新华日报》旗下“交汇点”在2月7日晚、8日上午连发三篇专稿文章《DeepSeek为什么...

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

明敏 发自 凹非寺量子位 | 公众号 QbitAI刚刚,DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5!而且这只是通过改进后训...

部署智慧新赛道!DeepSeek落地吴江!

部署智慧新赛道!DeepSeek落地吴江!

在DeepSeek爆火出圈的同时,各地的本地化部署已然争相展开。日前,江苏吴江区数据局正式引入并本地化部署DeepSeek智能平台,标志着吴江在数字城市建设与人工智能技术应用领域迈出关键一步。目前,吴...