据了解,新的Qwen3-Next模型架构旨在更好地处理大量信息,同时减少训练过程中和训练后的计算成本。
观点网讯:9月12日消息,阿里巴巴旗下通义千问发布了下一代基础模型架构Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B系列模型。
据了解,新的Qwen3-Next模型架构旨在更好地处理大量信息,同时减少训练过程中和训练后的计算成本。
基于Qwen3-Next的模型结构,阿里训练了Qwen3-Next-80B-A3B-Base模型,该模型拥有800亿参数仅激活30亿参数。该Base模型实现了与Qwen3-32B dense模型相近甚至略好的性能。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
审校:劳蓉蓉