当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

2周前 (02-26)DeepSeek技术交流44

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

豆瓣携手腾讯云接入Deepseek,大幅提升内部工具效率

豆瓣携手腾讯云接入Deepseek,大幅提升内部工具效率

近日,兴趣社交平台豆瓣成功通过腾讯云大模型知识引擎接入DeepSeek服务,并部署在多种内部工具场景。此次合作,不仅大幅提升了豆瓣的内部工具效率,同时也为人工智能大模型在企业内部的应用提供了有益借鉴。...

DeepSeek接入政务系统,公务员要下岗了?

DeepSeek接入政务系统,公务员要下岗了?

最近,全国多地将DeepSeek等人工智能系统应用于政务和公共服务。基于DeepSeek系统的“AI公务员”在深圳福田区上岗,在多类场景“办公”。广州市政务服务和数据管理局在政务外网正式部署上线Dee...

西部利得基金完成DeepSeek大模型本地化部署

西部利得基金完成DeepSeek大模型本地化部署

证券时报网讯,西部利得基金宣布,公司在数字化建设领域取得重要进展,完成了DeepSeek多个大模型的本地化部署,并搭建了公司内部AI应用平台。这一举措不仅标志着公司在智能化转型上的突破性进展,也为后续...

DeepSeek用户激增1.19亿:低成本模型如何掀起AI平价化浪潮

DeepSeek用户激增1.19亿:低成本模型如何掀起AI平价化浪潮

自2024年起,DeepSeek以“低成本、高性能、强推理”三位一体的技术路径,迅速成为全球AI领域的现象级选手。2024年12月至2025年1月底,其密集推出V3、R1等创新模型,推动全球用户数从3...

浦东头部企业纷纷接入DeepSeek大模型!“人工智能+”在千行百业加快应用

浦东头部企业纷纷接入DeepSeek大模型!“人工智能+”在千行百业加快应用

“deepseek的出现,标志着ai进入‘效率革命’的阶段,开辟了在垂直领域深度赋能的新战场,推动行业竞争焦点从‘参数竞赛’转向‘成本控制与场景适配’。”深耕人工智能领域多年的极豆科技ceo汪奕菲在本...

谷歌DeepMind负责人称赞DeepSeek:见过的中国最佳AI作品

谷歌DeepMind负责人称赞DeepSeek:见过的中国最佳AI作品

谷歌DeepMind的CEO再次称赞DeepSeek,并借机宣传自家产品。当地时间2月9日,在巴黎AI峰会正式开始前的一场预热活动上,2024年诺贝尔化学奖得主、谷歌DeepMind的CEO德米斯·哈...