字节拿出了国际顶尖水平的视觉–语言多模态大模型。
5 月 13 日,火山引擎在上海搞了场 FORCE link AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。
其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5VL)。
相比于之前版本,Seed1.5VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。
举个例子。仅需一张图,再来个提示词,Seed1.5VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。
再比如,喂它一段监控,问一句:「今天小猫干了哪些坏事?」几秒钟后,它就丢过来几段视频,「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现场。
尽管 Seed1.5VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中,有 38 个取得 SOTA 表现,在视频理解、视觉推理、多模态智能体能力等方面均处于第一梯队。
Seed1.5VL 推理性能拉满,但推理成本极具优势。据其官网显示,Seed1.5VL 推理输入价格仅为每千 tokens 0.003 元,推理输出价格为每千 tokens 0.009 元。
目前,Seed1.5VL 已在火山引擎全面开放 API,开发者登录后选择 Doubao1.5thinkingvisionpro 即可快速调用其能力,构建自己的 AI 视觉助手、巡检系统、交互 Agent 或下一代智能摄像头。
官网:
tech/seed15vl
API:
experience/ark?model=doubao15thinkingvisionpro250428
一手实测:视觉定位、推理又快又准
说一千道一万,模型好不好使,还得亲自上手试。接下来,我们就奉上一手实测,检验一下 Seed1.5VL 真实能力。
先来看看它的视觉定位和推理能力。
我们上传一张摆满各式各样牛奶的货架图片,让它找出图中有几盒黄桃味果粒酸奶优酸乳,并计算它们的价格。
这类任务看似简单,实则非常考验模型的多模态协同能力,需要它同时具备图像理解(识别包装)、文本 OCR(识别价格标签)、语义匹配(产品名称匹配)、数学推理(乘法计算)等能力。
而 Seed1.5VL 仅用不到 10 秒,就精准识别出货架角落里的黄桃味酸奶优酸乳,还准确数清瓶数、识别单价,并进行正确的价格计算。
除了门店货架巡检的工作,我们还让它找出下图中有几只小猫在生气。
从图像像素级别的变化中提取情绪线索,这对大模型的图像理解精度、注意力机制、细粒度识别能力都是极大的挑战。Seed1.5VL 面对一整屏表情相似的小猫脸,准确识别出 5 只在「生气」,并给出了相应坐标。
还有下面这个「找不同」测试,Seed1.5VL 既能精确分析两张相似图片的细微差别,又能清晰描述所有不同点,比如太阳左侧飞鸟数量、沙滩球颜色等,这展示了它在视觉理解、空间关系处理和结构化输出方面的综合能力。
此外,它还可以推理复杂视觉谜题。
比如这道公务员图形推理题目,大部分人看到这些黑白方块一头雾水,但 Seed1.5VL 仅用 10 秒就捕捉到其中的规律,通过精准识别前两行图形叠加后「去同存异」的变换逻辑,准确推导出第三行的缺失图形。
对于开发者来说,Seed1.5VL 新增的多模态智能体能力是一大利器。它基于强大的 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务。
比如在测试环境中,Agent 可以识别并点击「点赞」按钮,用于模拟用户行为,验证功能流程是否正常。
技术解读:重构视觉理解边界
作为 Seed 系列最新一代多模态模型,Seed1.5VL 在超过 3T token 的多模态数据上完成预训练,在图像问答、图表理解、视觉推理、视频分析、GUI 智能体等多个任务上表现突出,成为推动多模态交互应用落地的重要引擎。
那么,该模型背后有哪些独门绝技?
论文链接:abs/2505.07062
技术报告:ByteDanceSeed/Seed1.5VL/blob/main/Seed1.5VLTechnicalReport.pdf
GitHub:ByteDanceSeed/Seed1.5VL
从模型架构上来说,Seed1.5VL 由三个核心组件构成:首先是视觉编码模块 SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入;其次是一个多层感知机(MLP)适配器,负责将视觉特征投影到多模态表征空间;最后是基于 MoE 架构的大语言模型 Seed1.5LLM,激活参数为 20B,专注于处理融合后的多模态输入。
尽管激活参数规模远小于传统大型模型,但其表现却足以媲美甚至超越当前多项主流方法,在保证性能的同时显著降低了推理成本。
在训练方法上,Seed1.5VL 并未从一开始就进行联合多模态学习,而是选择了在语言模型基座上进行多模态预训练,以实现灵活的消融实验和快速迭代开发。
整个预训练过程分为三个阶段:初期仅训练 MLP 适配器以初步对齐视觉和语言表征;中期解冻所有参数,在大规模图文数据中强化知识积累、视觉 grounding 和 OCR 能力;后期在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。
到了后训练阶段,Seed1.5VL 引入了监督微调(SFT)与强化学习(RL)的组合策略。
SFT 训练数据集包含通用指令数据和长链式思考数据,前者用于简洁准确响应,后者用于详细分步推理。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到。
强化学习则整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。
考虑到多模态模型在训练中的异构性挑战,Seed1.5VL 在 Training Infrastructure 设计上也进行了大量工程创新。
模型采用多模态并行框架,针对视觉编码 / MLP 适配器和语言模型分别使用 ZeRO 数据并行与标准 4D 并行策略,充分发挥各自优势;视觉 token 的重分配采用局部贪心负载均衡算法,将计算负载合理分布在 GPU 集群中,提升吞吐效率;此外,还定制了数据加载器,优化了数据读取和分发过程。
Seed1.5VL 以其强大的多模态理解与推理能力,正在重塑我们与视觉世界交互的方式。无论是图像定位、视觉推理还是长视频解析,Seed1.5VL 都展示了行业领先的技术实力,也为通用视觉系统的实际应用拓宽了路径。
结语
在此次上海巡展中,火山引擎展示了其在 AI 领域的多项创新成果。从轻量级视频生成到深度视觉理解,再到音乐创作与全流程数据智能体,火山引擎正逐步构建一个完整的技术生态,不仅为企业提供了更强的技术支撑,也推动了从业务流程到智能体应用的全面落地。
这也意味着,真正的多模态智能时代,正加速走进现实。