通义千问 Qwen 2.5-Max 超大规模 MoE 模型发布:号称优于 Deepseek V3 等竞品,暂未开源

发布时间:2025-02-24 22:38:00 来源:互联网

感谢本站网友 混沌窥源、光影幻、软媒用户1392612 的线索投递!

本站 1 月 29 日消息,新年之际,阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型,大家可以通过API的方式进行访问,也可以登录Qwen Chat进行体验,例如直接与模型对话,或者使用 artifacts、搜索等功能。

据介绍,通义千问 Qwen 2.5-Max 使用超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

性能

阿里云直接对比了指令模型的性能表现(本站注:指令模型即我们平常使用的可以直接对话的模型)。对比对象包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet,结果如下:

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 的表现超越了 DeepSeek V3,同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中,由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型,阿里云将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B,以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。对比结果如下图所示:

我们的基座模型在大多数基准测试中都展现出了显著的优势。我们相信,随着后训练技术的不断进步,下一个版本的 Qwen2.5-Max 将会达到更高的水平。

本周热门攻略

1
韩国电影《教室爱欲》:这部挑战禁忌的师生恋为何引发如此巨大争议?

韩国电影《教室爱欲》:这部挑战禁忌的师生恋为何引发如此巨大争议?

2024/12/30

2
精品蜜桃秘一区二区三区区别解析:根据口感、价格和品质选择最合适的蜜桃

精品蜜桃秘一区二区三区区别解析:根据口感、价格和品质选择最合适的蜜桃

2025/01/03

3
三个男人躁我一个爽会带来哪些严重后果?如何避免心理、生理与社会的多重影响?

三个男人躁我一个爽会带来哪些严重后果?如何避免心理、生理与社会的多重影响?

2024/12/08

4
精品蜜桃秘一区二区三区系列介绍:不同区间蜜桃的特色与优势分析

精品蜜桃秘一区二区三区系列介绍:不同区间蜜桃的特色与优势分析

2025/01/11

5
如何在线观看《人狗大战2》高清正版免费资源?探索最安全和最快捷的观看方式!

如何在线观看《人狗大战2》高清正版免费资源?探索最安全和最快捷的观看方式!

2025/02/19

6
蜜桃精产国品一二三产区有什么区别?消费者如何挑选最合适的蜜桃?

蜜桃精产国品一二三产区有什么区别?消费者如何挑选最合适的蜜桃?

2024/12/30

7
女性为何喜欢扒开看个够?深度探讨背后的心理与生理需求

女性为何喜欢扒开看个够?深度探讨背后的心理与生理需求

2025/02/10

8
日韩和的一区二区区别究竟是什么?如何影响全球影视文化传播?

日韩和的一区二区区别究竟是什么?如何影响全球影视文化传播?

2025/02/18

9
如何理解“女性扒开,看个够”:是解放还是挑战传统?

如何理解“女性扒开,看个够”:是解放还是挑战传统?

2024/12/29

10
虫虫漫画免费漫画弹窗入口功能解析:如何通过智能推荐发现更多免费漫画

虫虫漫画免费漫画弹窗入口功能解析:如何通过智能推荐发现更多免费漫画

2025/02/10