书生・万象 3.0(InternVL3)是上海人工智能实验室(上海 AI 实验室)升级并开源的通用多模态大模型。官方介绍,“书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。例如,在 GUI 智能体、建筑图纸理解和空间推理等方面,该模型的表现都相当领先。
InternVL3性能表现
在专家级基准测试、多模态性能全面测试中,10 亿 - 780 亿参数的全量级版本在开源模型中性能均位列第一,展现出强大的综合实力。
InternVL3能力拓展
GUI 智能体:可作为图形用户界面智能体,遵循指令操作电脑或手机上的专业软件,为自动化办公等场景提供了技术支持。
建筑场景图纸理解:能够理解建筑场景图纸,有助于建筑设计、施工等领域对图纸的分析和解读,提高工作效率和准确性。
空间感知推理:大幅提升空间感知推理能力,可应用于机器人导航、虚拟现实等需要空间理解的领域。
通识学科推理:在通识学科推理方面也有显著提升,能为教育、科研等领域提供知识支持和推理帮助。
发表评论