阿里通义千问开源视觉推理模型 QVQ-72B-Preview:像物理学家一样思考

发布时间:2024-12-30 18:55:15 来源:互联网

感谢本站网友 Skyraver、软媒用户1392612、西窗旧事 的线索投递!

本站 12 月 25 日消息,阿里通义千问 Qwen 团队今天(12 月 25 日)发布博文,宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。

阿里通义千问团队在 4 个数据集上评估 QVQ-72B-Preview,本站附上相关介绍如下:

    MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。

    MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。

    MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于 MathVista 具有更多的问题多样性和学科广度。

    OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的 8,476 个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。

    测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。

    阿里通义千问 Qwen 团队也表示 QVQ-72B-Preview 是实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意:

      语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。

      递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。

      安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。

      性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。

      参考

      • 模型链接

      • 体验链接

      • 中文博客

本周热门攻略

1
陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

2024/12/12

2
狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

2024/12/05

3
如何在哔哩哔哩免费观看少女视频:详细指南与操作步骤

如何在哔哩哔哩免费观看少女视频:详细指南与操作步骤

2024/12/16

4
国内有哪些永久免费SaaS CRM系统?如何选择适合自己企业的CRM?

国内有哪些永久免费SaaS CRM系统?如何选择适合自己企业的CRM?

2024/11/14

5
《教室爱欲》无删减韩国版的影响与争议:为何这部影片会引发如此广泛的讨论?

《教室爱欲》无删减韩国版的影响与争议:为何这部影片会引发如此广泛的讨论?

2024/11/30

6
蜜桃精产国品一二三产区的区别在哪?如何根据不同产区选择最佳蜜桃?

蜜桃精产国品一二三产区的区别在哪?如何根据不同产区选择最佳蜜桃?

2024/12/10

7
精品无人乱码一区二区三区的独特性与挑战:分析乱码产生原因及解决方法

精品无人乱码一区二区三区的独特性与挑战:分析乱码产生原因及解决方法

2024/12/01

8
男人狂女人40:为何40岁的女人比年轻女性更具吸引力?

男人狂女人40:为何40岁的女人比年轻女性更具吸引力?

2024/12/16

9
小小拗女一区二区三区:揭示现代影视中叛逆女性角色的成长与挑战

小小拗女一区二区三区:揭示现代影视中叛逆女性角色的成长与挑战

2024/12/14

10
三个男人躁我一个爽的后果及影响:心理、生理及社会影响全面解析

三个男人躁我一个爽的后果及影响:心理、生理及社会影响全面解析

2024/12/22