当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级

2个月前 (01-02)Deepseek最新资讯81

  其核心机制简洁明了,x𝑙+1 = x𝑙 + F (x𝑙 ,W𝑙),即下一层的输出等于当前层输入加上残差函数的输出。

  随着Transformer架构的崛起,这一范式已成为GPT、LLaMA等大语言模型的标准配置。

  近期出现的Hyper-Connections(HC)试图打破这一格局。HC将残差流的宽度从C维扩展到n×C维,并引入三个可学习的映射矩阵来管理信息流动。

  DeepSeek团队的实验表明,在这三个映射中,负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升。

  论文中展示的27B模型训练曲线显示,HC在约12000步时出现了突发的损失激增,梯度范数也表现出剧烈波动。

  研究团队计算了复合映射对信号的放大倍数:在HC中,这个值的峰值达到了3000,意味着信号在层间传播时可能被放大数千倍,或者相应地被衰减至近乎消失。

  DeepSeek论文的核心思路是将残差映射矩阵约束到一个特定的流形上,一个由双随机矩阵构成的Birkhoff多面体。

  第一是范数保持:双随机矩阵的谱范数不超过1,这意味着信号在经过映射后不会被放大,有效防止了梯度爆炸。

  第二是组合封闭:多个双随机矩阵相乘的结果仍然是双随机矩阵,因此无论网络多深,跨层的复合映射都能保持稳定性。

  第三是几何解释:Birkhoff多面体是所有排列矩阵的凸包,残差映射实际上是在对特征做凸组合,相当于一种稳健的特征融合机制。

  为了将任意矩阵投影到这个流形上,论文采用了Sinkhorn-Knopp算法。该算法先对矩阵取指数使所有元素为正,然后交替对行和列进行归一化,迭代收敛到双随机矩阵。

  实验数据显示,这个近似解已经足够有效:在27B模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000形成了三个数量级的差距。

  标准残差连接需要读取2C个元素、写入C个元素,而HC需要读取(5n+1)C + n² + 2n个元素、写入(3n+1)C + n² + 2n个元素。

  团队为此开发了一系列基础设施优化,他们使用TileLang框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。

  针对Sinkhorn-Knopp算法,他们设计了专门的前向和反向内核deepseek,在芯片上重新计算中间结果以避免存储开销。

  在流水线并行方面,他们扩展了DualPipe调度策略,通过将MLP层的特定内核放在高优先级计算流上执行,实现了计算与通信的重叠。

  在27B参数的MoE模型上,mHC展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与baseline相当的梯度范数稳定性。

  在下游任务评测中,mHC在BBH推理任务上比HC提升2.1%,在DROP阅读理解任务上提升2.3%。mHC在大多数任务上不仅超过基线,还超过了HC。

  计算缩放曲线显示,mHC的性能优势在更高计算预算下仍然保持,仅出现轻微衰减。对3B模型的token缩放曲线分析表明,mHC的优势贯穿整个训练过程。

  论文提到,内部的大规模训练实验进一步证实了这些结论,且当扩展率n=4时,mHC仅引入6.7%的额外时间开销。原文出处:DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级” 的相关文章

10月28日DeepSeek预测:魔术vs76人,马克西单核带队能否延续不败?

10月28日DeepSeek预测:魔术vs76人,马克西单核带队能否延续不败?

  2025-26赛季NBA常规赛迎来东部焦点战,11名魔术将客场挑战暂列东部第二的76人deepseek。尽管历史交锋魔术4胜1负占据绝对优势,但本赛季76人场均121分的火力高居联盟第...

DeepSeek问世一周年 外媒预测中国将赢得AI马拉松

DeepSeek问世一周年 外媒预测中国将赢得AI马拉松

  去年1月20日,中国人工智能(AI)初创企业深度求索(DeepSeek)正式发布R1模型震惊全球,转眼已过去一年。中国的“AI崛起”已不再只是一句政治口号,而已转变为现实技术竞争力。...

华为昇腾+DeepSeek:AI黄金组合增长TOP10全解析

华为昇腾+DeepSeek:AI黄金组合增长TOP10全解析

  在全球AI竞赛白热化的背景下,华为昇腾与DeepSeek的协同创新成为国产AI突围的关键力量。   昇腾芯片:华为自主研发的AI处理器系列,通过架构创新(如昇腾384...

DeepSeek罕见公开发声,资深研究员陈德里:长期看,AI可能会取代绝大部分人

DeepSeek罕见公开发声,资深研究员陈德里:长期看,AI可能会取代绝大部分人

  11月7日,DeepSeek资深研究员陈德里在世界互联网大会上罕见发声,指出AI将在10-20年内取代绝大部分人类工作。他提出三阶段演进路径:3-5年内人机协同创造价值,5-10年开始...

“十五五”开局之年,全力“拼经济”

“十五五”开局之年,全力“拼经济”

  我国经济基础稳、优势多、韧性强、潜能大,长期向好的支撑条件和基本趋势没有改变。2026年是我国“十五五”开局之年,起步之时当有关键之作为。站在新起点,通过新发展模式,实施更加积极有为的...

首届AI实盘投资大赛:阿里千问20%收益率夺冠,DeepSeek第二,美国四大模

首届AI实盘投资大赛:阿里千问20%收益率夺冠,DeepSeek第二,美国四大模

  北京时间11月4日消息,由第三方机构Nof1于10月18日发起的AI大模型实时投资比赛“Alpha Arena”,历时17天,在今日落下帷幕。   DeepSeek位...