Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

发布时间:2025-02-20 22:42:52 来源:互联网

本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。

据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。

具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。

而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

本周热门攻略

1
如何免费在线观看麻花传剧mv无痕?轻松掌握免费播放平台和观看技巧

如何免费在线观看麻花传剧mv无痕?轻松掌握免费播放平台和观看技巧

2025/02/10

2
韩国电影《教室爱欲》:这部挑战禁忌的师生恋为何引发如此巨大争议?

韩国电影《教室爱欲》:这部挑战禁忌的师生恋为何引发如此巨大争议?

2024/12/30

3
精品蜜桃秘一区二区三区区别解析:根据口感、价格和品质选择最合适的蜜桃

精品蜜桃秘一区二区三区区别解析:根据口感、价格和品质选择最合适的蜜桃

2025/01/03

4
成人91看片平台如何满足你的隐私需求?揭秘其内容和未来发展趋势

成人91看片平台如何满足你的隐私需求?揭秘其内容和未来发展趋势

2025/01/02

5
精品蜜桃秘一区二区三区系列介绍:不同区间蜜桃的特色与优势分析

精品蜜桃秘一区二区三区系列介绍:不同区间蜜桃的特色与优势分析

2025/01/11

6
两男一女一个人一个摸的社交行为:如何在轻松互动中保持界限与尊重

两男一女一个人一个摸的社交行为:如何在轻松互动中保持界限与尊重

2025/02/10

7
麻豆精品无人区码一二三区别:深度解析三种码的特征与应用

麻豆精品无人区码一二三区别:深度解析三种码的特征与应用

2024/12/07

8
如何解决“公与媳”中文字幕乱码问题?有效预防措施都在这里!

如何解决“公与媳”中文字幕乱码问题?有效预防措施都在这里!

2025/02/05

9
少妇办公室激战2奶玉最佳搭配推荐,助你轻松突破关卡

少妇办公室激战2奶玉最佳搭配推荐,助你轻松突破关卡

2025/01/07

10
草莓、香蕉、榴莲和丝瓜,18岁的人完全可以放心食用!了解不同食物的健康益处与注意事项

草莓、香蕉、榴莲和丝瓜,18岁的人完全可以放心食用!了解不同食物的健康益处与注意事项

2024/12/28