阿里通义即将发布Qwen3-Next系列模型重磅来袭

阿里通义即将发布Qwen3-Next系列模型,该系列模型将带来全新的自然语言处理技术和智能应用体验,这一系列模型具备更高的性能和更广泛的应用场景,能够为企业提供更加智能的语音交互、自然语言理解等服务,该模型的发布将进一步推动人工智能技术的发展和应用,助力企业实现数字化转型和智能化升级,摘要字数在100-200字左右。

阿里通义 qwen 团队通过 hugging face transformers 库的 pr 提交了对 qwen3-next 系列的支持,信息显示将有一款名为 qwen3-next-80b-a3b-instruct 的模型。该系列定位为 “下一代基础模型”,主打极端上下文长度与参数效率。

阿里通义即将发布Qwen3-Next系列模型重磅来袭

阿里通义即将发布 Qwen3-Next 系列模型

据介绍,Qwen3-Next 系列模型在架构层面引入了三项核心创新。首先是 Hybrid Attention,它使用 Gated DeltaNet 和 Gated Attention 替代传统注意力机制,以实现高效的长文本建模。其次是 High-Sparsity MoE,将激活比例压缩至 1:50,大幅减少了单个 token 的 FLOPs 而不损失模型容量。最后是 Multi-Token Prediction,在预训练阶段同步预测多个 token,从而提升性能并加速推理。

阿里通义即将发布 Qwen3-Next 系列模型

此外,模型还辅以 zero-centered、weight-decayed layernorm 等多项稳定化改进,增强了训练的鲁棒性。

源码地址:点击下载

关键词:redgateqwen

网友留言(0 条)

发表评论