1. 主页 > 社会焦点

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

智东西

作者 | 李水青

编辑 | 心缘

智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

阿里千问团队公告截图(图源:X平台)

这两个新版本模型实现了以下关键目标:

1、资源门槛更低:尺寸缩减显著降低VRAM的占用。现在,开发者可以在更广泛的硬件设备上部署和运行模型。

2、核心能力不减配:在缩减尺寸的同时,其完整保留了Qwen3-VL的全部核心功能。

3、基准性能优秀:在STEM、VQA、OCR、视频理解及Agent任务等多个权威基准上,其表现不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型Qwen2.5-VL-72B相媲美。

如下图所示,在多模态性能方面,Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30项权威基准测评中取得SOTA(行业最佳)成绩,超越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等顶尖模型。

Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源:Qwen)

Qwen3-VL-4B Instruct也展现出优秀的多模态性能,以更少的参数量,在STEM、VQA、OCR、视频理解及Agent任务等测评中,能与Gemini 2.5 Flash Lite、GPT-5 Nano对打。

在纯文本表现上,如下图所示,Qwen3-VL-8B Instruct和Qwen3-VL-4B Instruct也相比Qwen3-4B Instruct-2507和Qwen3-8B Non-Thinking有整体提高。

Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源:Qwen)

在多模态性能方面,Qwen3-VL-8B Thinking取得了MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等23项权威基准测评的SOTA,超越Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等级顶尖开源模型。Qwen3-VL-4B Thinking同样表现出“以小敌大”的成绩。

Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源:Qwen)

在纯文本表现上,Qwen3-VL-8B Thinking和Qwen3-VL-4B Thinking相比于Qwen3-4BThinking-2507和Qwen3-8B Thinking有整体提高。

Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源:Qwen)

该模型一经发布,就在外网引起了不少开发者关注。不少人对此表示一直在等这个,有人称:“终于,我在16GB的Mac上可以用了。”也有不少人开始催更Qwen3-Max及其他更多版本模型了。

外网用户对新版本Qwen3-VL的评论(图源:X平台)

自9月24日阿里开源Qwen3-VL系列以来,作为Qwen系列中最强的视觉语言模型,该模型在全球AI开源社区中快速收获认可。(《阿里又一大模型开源,手机电脑样样玩的溜,多项测试秒GPT-5》)

在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。

在Vision Arena中Qwen3-VL位居第二(图源:Qwen)

并且,Qwen3-VL还在全球知名的大模型API三方聚合平台OpenRouter图像处理榜单上以48%的市场份额跃升至全球第一。

Qwen3-VL在OpenRouter图像处理榜单上表现(图源:OpenRouter)

近期,阿里还推出Qwen3-VL Cookbook(使用指南),涵盖图像思维、计算机使用Agent、多模态变成、3D定位、空间推理、视频理解等多种多模态用例,助用户高效上手和深度应用。

模型地址:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

体验地址:

chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)

Cookbook地址:

https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

来源:X平台、Hugging Face、通义千问Qwen公众号

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://www.jinnalai.com/jiaodian/782720.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息