智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体“看懂”屏幕

发布时间:2025-01-02 12:17:54 来源:互联网

本站 12 月 27 日消息,智谱技术团队公众号昨日(12 月 26 日)发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。

本站注:该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。

得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

相较于 2023 年 12 月开源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕截图和语言交互。

CogAgent 的输入仅包含三部分:用户的自然语言指令、已执行历史动作记录和 GUI 截图,无需任何文本形式表征的布局信息或附加元素标签(set of marks)信息。

其输出涵盖以下四个方面:

    思考过程(Status & Plan): CogAgent 显式输出理解 GUI 截图和决定下一步操作的思考过程,包括状态(Status)和计划(Plan)两部分,输出内容可通过参数控制。

    下一步动作的自然语言描述(Action):自然语言形式的动作描述将被加入历史操作记录,便于模型理解已执行的动作步骤。

    下一步动作的结构化描述(Grounded Operation): CogAgent 以类似函数调用的形式,结构化地描述下一步操作及其参数,便于端侧应用解析并执行模型输出。其动作空间包含 GUI 操作(基础动作,如左键单击、文本输入等)和拟人行为(高级动作,如应用启动、调用语言模型等)两类。

    下一步动作的敏感性判断:动作分为“一般操作”和“敏感操作”两类,后者指可能带来难以挽回后果的动作,例如在“发送邮件”任务中点击“发送”按钮。

    CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。

    结果显示,CogAgent 在多个数据集上取得了领先的结果,证明了其在 GUI Agent 领域强大的性能。

本周热门攻略

1
陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

2024/12/12

2
禁漫天堂:成人漫画网站的争议与挑战

禁漫天堂:成人漫画网站的争议与挑战

2024/12/27

3
脏脏漫的独特魅力:深刻剖析脏脏漫的创作特点与未来发展

脏脏漫的独特魅力:深刻剖析脏脏漫的创作特点与未来发展

2024/12/30

4
禁漫天堂:解析平台内容多样性及用户群体特征

禁漫天堂:解析平台内容多样性及用户群体特征

2024/11/22

5
羞羞漫画官网:深度解析为何它成为漫画爱好者首选平台

羞羞漫画官网:深度解析为何它成为漫画爱好者首选平台

2024/11/23

6
“Chinese老太交grany”现象的社会解读与未来发展趋势:对老龄化与跨文化婚恋的思考

“Chinese老太交grany”现象的社会解读与未来发展趋势:对老龄化与跨文化婚恋的思考

2024/12/29

7
狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

2024/12/05

8
美国为什么总是被称为“又粗又大”?揭示美国全球霸主地位的背后原因

美国为什么总是被称为“又粗又大”?揭示美国全球霸主地位的背后原因

2024/12/26

9
韩国电影《教室爱欲》:师生情感纠葛引发的道德与欲望思考

韩国电影《教室爱欲》:师生情感纠葛引发的道德与欲望思考

2024/12/28

10
日本护士行业的多元化发展:如何看待“日本Japanese护士XxⅩ”现象的文化冲击?

日本护士行业的多元化发展:如何看待“日本Japanese护士XxⅩ”现象的文化冲击?

2024/12/31