DeepSeek开源周连续“放大招”
2月24日消息
DeepSeek宣布启动
“开源周”(Open Source Week)
计划连续5天(2月24日至28日)
陆续开源5个代码库
网友们对此举纷纷点赞称:
“DeepSeek王炸开局”
“‘源’神启动!”
图源:网络
FlashMLA让AI大模型低成本却有高性能
首个开源的项目是FlashMLA
可谓是第一天就“放大招”!
DeepSeek首日开源内容公告 图源:X
FlashMLA是
DeepSeek针对
英伟达Hopper架构GPU优化的
高效MLA解码内核
(MLA即多头潜在注意力)
可理解为
专为高性能显卡设计的
“AI加速工具”
现在已经投入生产使用
简而言之
FlashMLA能够让AI大模型
在H800这样的GPU上
跑得更快、更高效
当AI同时处理长句子和短句子时
FlashMLA
能动态调整资源分配
避免浪费算力
网友称赞DeepSeek是真正的“Open AI”图源:X
根据此前公开发布的
DeepSeek V3大模型技术文档
该大模型正是使用
H800芯片训练而成
自从V2模型开始
MLA就已帮助DeepSeek
在一系列模型中实现成本大幅降低
但计算、推理性能
仍能与顶尖模型持平
DeepEP让专业答案更高效精准
2月25日
DeepSeek再度官宣
当日开源代码库为DeepEP
即首个用于MoE(混合专家)模型
训练和推理的
开源EP(专家并行)通信库
据报道
MLA和MoE也被认为是
DeepSeek以低成本
实现杰出表现的核心原因
DeepSeek25日开源内容公告 图源:X
MoE架构的缺点之一
是会增加通信成本
而EP通信库正是
针对通信环节的优化
可以实现高效、优化的全员沟通
适配现代高性能计算需求等
值得一提的是
在宣布开源20分钟内
DeepEP便已在GitHub上
获得超1000个收藏
受到大量关注
推动AI普惠发展也要守住底线
最新数据显示
2月24日
DeepSeek-R1
在国际知名开源社区Hugging Face上
已获得超过一万个赞
成为该平台
近150万个公开模型中
最受欢迎的开源大模型之一
作为开源社区的“顶流”
DeepSeek以完全透明的方式
与全球开发者社区
分享最新的研究进展
希望加速行业发展进程
由于DeepSeek的图标
是一只鲸鱼
有网友生动地描述称
“这条鲸鱼正在掀起波浪”
(The whale is making waves)
与此同时
在DeepSeek获得广泛关注之际
有人却动起了“歪脑筋”
中国国家知识产权局
日前发布通告
依法对抢注“DEEPSEEK”等
63件商标注册申请
予以驳回
这些商标恶意注册申请
明显具有“蹭热点”
谋取不当利益的意图
有业内人士建议
在各个领域接入AI大模型
国际社会期待各个行业
迎来新“智”变的今天
要正确处理技术创新与
资本投入和人类发展的关系
让更多人享受到AI技术红利
同时要守住AI发展红线
警惕技术发展过程中
可能出现的危机
撰文:孔繁鑫 编辑:雷渺鑫排版:李汶键 统筹:李政葳
参考:新华社、中国青年报、证券时报、新京报、扬子晚报、每日经济新闻、观察者网、新浪科技、腾讯科技
来源:世界互联网大会