当前位置:首页 > DeepSeek技术交流 > 正文内容

挑战DeepSeek-R1,上海企业开源发布MiniMax-M1大模型

2个月前 (06-18)DeepSeek技术交流243

今天,上海人工智能独角兽企业稀宇在开源社区发布了MiniMax-M1系列模型。它们是采用大规模混合架构的推理模型,在处理百万级Token(词元)长文本上实现了突破,支持高达100万Token的上下文窗口,与谷歌最新发布的Gemini 2.5 Pro持平,是DeepSeek-R1的近8倍。

在17个国际主流评测集上,M1大模型显示出优越性能。在代码能力方面,M1-40k和M1-80k版本分别取得了55.6%和56.0%的优秀成绩,超越其他开源模型,跻身全球大模型第一梯队。在长文本理解方面,M1系列凭借百万级上下文窗口,不仅超越了所有开源模型,还击败了GPT-4o和Claude 3 Opus,仅以微弱差距落后于Gemini 2.5 Pro,位列全球第二。在工具调用方面,M1-40k在模拟真实世界工具调用的复杂场景中完成多项任务,展现了其作为智能体基座模型的潜力。

在主流评测集上,M1大模型显示出优越性能。

研发团队介绍,MiniMax-M1的优越性能根植于独特的架构设计和算法创新。它采用线性注意力机制混合构架。其中,线性注意力机制通过算法优化,把传统模型架构中输入长度和计算复杂度之间的平方增长关系变成线性关系,跨出了“实现无限长的输入和输出”的关键一步。混合构架的设计思路是“术业有专攻”,即对任务进行分类,然后分给多个“专家”模块来解决。与一个“通才”大模型相比,一群“专家”模块可以更高效、专业地完成复杂任务。

强化学习算法CISPO也是M1大模型实现突破的核心技术,它通过裁剪重要性采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。测试数据显示,CISPO的收敛性能比字节跳动近期提出的DAPO算法快一倍,也显著优于DeepSeek早期使用的GRPO算法。

更快的收敛意味着更少的训练时间和资源消耗。M1大模型的整个强化学习阶段仅使用512块英伟达H800 GPU,耗时三周,成本仅为53.5万美元。这一成本比研发团队的预估少了一个数量级,展示出“线性注意力机制混合构架+CISPO算法”这条技术路线在成本控制上的巨大潜力,证明了通过技术创新可以打破“算力—资本”的壁垒。

在AIME 2024测试集上,CISPO的性能同比优于GRPO和DAPO。

凭借研发成本的大幅降低,稀宇推出了价格很低的API(应用程序编程接口)服务。0—32k Token、32k—128k Token这两个档位的定价均低于DeepSeek-R1,128k—1M Token超长文本档位则是DeepSeek目前尚未覆盖的领域。这家上海企业还宣布,在其自有的App和Web端,用户可无限量免费使用M1大模型。

目前,完整的M1模型权重和技术报告已在“抱抱脸”和GitHub上发布。公司还在与国家超算平台、vLLM等业界主流开源框架合作,让开发者高效地部署和使用M1模型。据悉,M1的发布开启了MiniMax“开源周”。在接下来的4个工作日里,公司计划每天发布一项新技术或产品更新,有望引起业界持续关注。

原标题:《挑战DeepSeek-R1,上海企业开源发布MiniMax-M1大模型》


“挑战DeepSeek-R1,上海企业开源发布MiniMax-M1大模型” 的相关文章

央广网刘宏鹏:人形机器人和DeepSeek让人们看到了中国数字经济的光明前景

央广网刘宏鹏:人形机器人和DeepSeek让人们看到了中国数字经济的光明前景

 央广网副总裁刘宏鹏在2025#中国互联网大会#上表示,2025年被业界称为AI应用元年人形机器人(17.610, 0.24, 1.38%)量产元年。今年总台春晚舞台上会扭秧歌的人...

中昊芯英首批通过 DeepSeek 适配测试:人工智能软硬件测试验证中心权威发布

中昊芯英首批通过 DeepSeek 适配测试:人工智能软硬件测试验证中心权威发布

近日,由人工智能软硬件协同创新与适配验证中心(以下简称“人工智能软硬件测试验证中心”)、中国人工智能产业发展联盟联合举办的 2025 年人工智能软硬件协同创新高级别研讨会暨中国人工智能产业发展联盟第十...

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

即日起至8月1日,“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了!此次竞赛由郑州市总工会主办,郑州市电子信息科技工会和市信息协会共同承办,旨在加快培养高...

有关DeepSeek在国际工程中的应用探讨

有关DeepSeek在国际工程中的应用探讨

自2025年初DeepSeek发布了V3模型(基础模型,对标ChatGPT 4)和R1模型(深度推理模型,对标OpenAI)以来,中国产业界对DeepSeek的响应延续至今。此前,封闭的私有模型、千卡...

我把DeepSeek和这些AI工具组合后,仿佛开了挂!复杂案件10秒理清!

我把DeepSeek和这些AI工具组合后,仿佛开了挂!复杂案件10秒理清!

半年不到,听说DeepSeek凉凉了?7月初,某机构发布的数据显示,DeepSeek的用户使用率已从年初7.5%的峰值明显回落,官网流量同期下滑至3%。尽管如此,据QuestMobile数据,截至5月...

WAIC抢先爆料:金融黑马大模型超DeepSeek刷新SOTA,论文已上线

WAIC抢先爆料:金融黑马大模型超DeepSeek刷新SOTA,论文已上线

鱼羊 发自 纽凹非寺量子位 | 公众号 QbitAI又到了一年一度“中国AI春晚”WAIC,各家大厂动作频发的时候。今年会有哪些看点?你别说,我们还真在扒论文的过程中,发现了一些热乎线索。比如蚂蚁数科...