成本暴降90%!阿里深夜干了件大事

2025-09-12 | 来源: 智东西 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

9月12日凌晨，阿里通义实验室正式发布下一代基础模型架构Qwen3-Next，并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型，该模型拥有800亿个参数仅激活30亿个参数。

Base模型在Qwen3预训练数据的子集15T tokens上进行，仅需Qwen3-32B 9.3%的GPU计算资源，针对超过32k的上下文，推理吞吐量可达到Qwen3-32B的10倍以上。

同时，基于Base模型，阿里开源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思维模型（Thinking），模型支持原生262144个token上下文长度，可扩展至1010000个token。

其中，Qwen3-Next-80B-A3B-Instruct仅支持指令（非思考）模式，其输出中不生成块；Qwen3-Next-80B-A3B-Thinking仅支持思考模式，为了强制模型进行思考，默认聊天模板自动包含。

指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当，思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。

在架构升级方面，相比阿里4月底的Qwen3 MoE模型，新增了混合注意力机制、高稀疏度MoE结构、一系列训练稳定友好的优化，以及提升推理效率的多Token预测（MTP）机制等。

新模型已在魔搭社区和HuggingFace开源，开发者们也可通过Qwen Chat免费体验或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。

开发者在Qwen的X评论区称赞其新增的多Token预测（MTP）机制，称这是最令人印象深刻的部分。

向西! 一路向西! 中亚方向中国正在干大事!

大事不妙 "两头婚"在中国悄然蔓延

香港女子深夜只穿内衣呆坐马路中央影片疯传

思维模型测试基准

阿里云百炼：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen3

一、指令模型接近235B旗舰模型，推理模型超Gemini-2.5

Qwen3-Next模型支持原生262144个token上下文长度，可扩展至1010000个token。

总的来看在性能方面，指令模型接近阿里参数规模235B的旗舰模型，思维模型表现优于Gemini-2.5-Flash-Thinking。

其基座模型为Qwen3-Next-80B-A3B-Base，仅使用1/10的Non-Embedding激活参数，在大多数基准测试中，性能表现与Qwen3-32B-Base相近。但其总训练成本为Qwen3-32B-Base的10%不到，并且对于超过32K上下文的推理吞吐是Qwen3-32B的10倍以上。