推广 热搜:

可灵AI这一周,把国产视频模型“卷”进生产革命具体怎么回事

   2025-12-11 03:12  发布时间: 1小时前   265
核心提示:2025年,在Sora 2、Nano 先后惊艳全球之后,这一年的12月,国产视频大模型赛道终于迎来一次罕见的产品密集爆发。12月1日至5日,快手可灵AI连续五天发布多项核心产品与能力升级:统一多模态创作引擎可灵 O1、音画同出的视频生成模型可灵2.6、长内容能力全面升级的数字人2.0,以及赋能更专业

2025年,在Sora 2、Nano 先后惊艳全球之后,这一年的12月,国产视频大模型赛道终于迎来一次罕见的产品密集爆发。



12月1日至5日,快手可灵AI连续五天发布多项核心产品与能力升级:统一多模态创作引擎可灵 O1、音画同出的视频生成模型可灵2.6、长内容能力全面升级的数字人2.0,以及赋能更专业化创作的主体库与对比模板能力。



在过去两年中,生成式AI产业经历了从参数竞赛到体验优化的阶段转折:除了模型技术的迭代,商业化能力、产品稳定性及可控度、工程化效率创新,皆成为产业关注的焦点。对于创作者与企业而言,这个问题在实际操作层面则指向“用AI重构工作流”的条件是否已经成熟。



正如这轮可灵“全能灵感周”所进行的一次系统级平台亮相:从输入结构到输出模式,视频创作开始呈现出更体系化的的形态。



在行业普遍仍在突破可用性门槛的阶段,可灵开始回答下一个问题:用AI生产完整、可看的内容,这件事是否可以规模化发生。



大一统模型:一个引擎搞定“视频理解、生成、编辑”



在本轮发布中,可灵O1是最具基础设施意义的一款产品。



过去的视频大模型普遍沿用工具拼装式路线:文本生成视频是一个模型,图生视频是一个模型,视频编辑又是另一个管线。创作者在不同模型之间不断跳转,本质上是在与工具的边界作斗争,而不是集中精力在内容本身。



可灵O1选择了一条更符合直觉和用户体验的路线:将视频生成、编辑、理解统一到一套“多模态视觉语言引擎”之中。



可灵曾提出过一个创新交互理念——MVL(Multi-modal ),在此视角下,图像、视频、文本不再是三种割裂的输入方式,而是同等可输入的“语言”。



结果是,视频创作流第一次变得“有手就能P”。用户不再需要为如何在软件里选中主体、画遮罩、拉时间线而耗费精力,只要用一句“把天空改成黄昏”,模型就完成了人物主体稳定、光影重算、风格统一的整套重绘。如果需要删除路人、替换衣服、加入新角色,逻辑同样简单。



可灵O1功能介绍

更具行业价值的是 “技能组合式生成”。



现有的视频AIGC更多是单点任务工具,加角色或者改风格,可能都涉及更换模型或者重启流程。而可灵O1支持在一次指令中实现多任务叠加,同时支持增加主体和调整背景,图片参考和风格重绘,以及首尾帧配合场景扩展……创作的工作流可以不用被工具能力拆解,而是以内容目标为核心调度模型能力。



尤其是对于影视、自媒体、电商广告这类高频、低容错、复杂流程内容行业而言,这种一体化模型的商业价值远高于参数本身。因为如果工具打断了创作过程,就意味着成本与效率无法得到有效的控制,这也就偏离了将AIGC工具加入工作流的本意。



行业普遍认为,这是视频生成进入工业化的必要转变。当模型可以在极简指令交互下同时干多件事,生产效率才会真正发生数量级跃迁。



这是可灵O1此行的目标之一,让视频创作正式走向统一的操作系统。其行业价值有一个明确的参考坐标——a16z投资合伙人 Moore在产品发布后第一时间点评称:我们终于迎来了视频界的Nano 。



Moore的推文

这已经体现在用户反馈上。多位视频创作者在发布周内自发测试并分享可灵O1的使用体验,其中大量实测内容主线便在于可灵O1的统一性与多任务执行。



一位测评人直言,“如果某一天真的有那种,给一句话就能帮你从策划到拍片到剪辑全包的终极视频AI。它的族谱上肯定会写着:这里,曾经有一个叫可灵O1的名字。”



音画同出:重构AI视频创作工作流



如果说可灵O1解决的是画面生产问题,那么可灵2.6的突破则在于另一个长期被忽视的环节:声音工程。



过去,AI视频的默认流程几乎是固定的:画面先生成,声音后补齐。创作者需要额外依赖配音工具、剪辑软件乃至第三方服务来完成完整制作。画面和声音像两条平行生产线,零散、低效且高成本。



可灵2.6希望尽可能弥合两条任务线之间的时间差,在一次生成中同步输出画面、对白、环境音与动作音效。



从用户体验上看,这是一项创作流程变得更加自然流畅的功能,而从产业角度看,这是从根源上推动生产节奏加快。有行业分析师指出,这一能力的意义不仅限于体验升级,而是一次真实的生产力变革。



对于内容创作者而言,音画同步意味着三个变化:首先,工作流被压缩,无需再经历从画面生成到使用音频相关软件处理声音,再依次导入剪辑的碎片化流程;其次,成本被降低,创作者不再需要额外购买配音服务;最后,行业整体的迭代速度提升,创作者可以用低成本快速试错。



音画同出的过程中,更关键的是音画协同、语义对齐能力。



可灵2.6不是简单叠加声音,而是尽可能保证动态画面、语句节奏、环境音场的统一生成。人物说话时嘴型匹配,脚步声与步态同步,环境声跟随场景变化,用模拟视听逻辑取代简单的配音思路。



可灵2.6能够生成包含人声、环境与效果音效的完整视频

该能力的现实意义在于,视频创作可以不受限于画面部门与声音部门协同工作模式,以更自由统一的方式稳定完成创作。



这意味着小团队甚至个人创作者,也能生成完整视频内容;也意味着广告、电商、动漫短剧等行业正式具备AI规模化生产的前提。



有创作者用可灵2.6一键生成配音动画视频,展示音画同步效果,单条视频点赞量达到了个人近期新高,评论区也开始集中讨论“商用”“效率”“落地”等字眼。



在内容产业,“单位内容成本”决定着商业天花板,音画一体将加速视频AI进入真正可落地的规模化可盈利生产。



5天5次密集“上新”,可灵AI率先构建更完整功能生态



在前三天通过可灵O1与可灵2.6连番炸场之后,可灵再次用主体库与数字人2.0填补了视频生产流程上的空白点。



就可灵数字人2.0而言,其一项关键升级是支持最长5分钟连续内容输出。这意味着,数字人不再只是短视频口播工具,而是可以承载完整课程、讲解、剧情与广告内容。



可灵数字人2.0表演力全面进化,情绪传达更生动

这为教育、培训、企业传播、知识型自媒体等行业打开了全新可能,企业也许自此拥有了可规模化生产的虚拟员工。



而作为本轮发布周的收官作,主体库的出现是为了解决视频生成领域最大难题,也就是生成基础能力之外的一致性。角色换一个镜头就变脸,道具转场就失真,场景细节难以复现。这使得AI视频难以进入影视、品牌广告等对连续性要求极高的场景。



主体库功能上线的本质是,给模型加上“长期记忆”。



用户只需上传多角度参考图,即可让AI记住你的角色、道具和场景

用户上传多角度参考图后,模型可以稳定复现人物、道具、场景——确保在不同任务、不同视频中主体不漂移。这是视频AI真正工业化的前提,因为品牌、IP、影视制作均无法接受核心元素在最终呈现中不是每一帧都一样。



与此同时,“对比模板”功能上线,在作品发布环节,用户可使用对比模版功能,将模型的输入与输出组合呈现,展示创意作品的生成前后对比。这意味着未来优秀创作者的工作流可以被复制、交易、复用,平台也得以从工具逐步转向生态。



对比模板功能介绍

至此,可灵AI在短短一周内给行业抛出一个明确答案,视频AI的终局比拼不仅是画质、审美、真实性,还有可灵O1解决的“大一统生成”,可灵2.6实现的“音画同出完整表达”,数字人2.0达成的“长内容输出”,以及主体库与模板能力攻克的“一致性”与“生产扩散”问题。



有观察人士指出,在传播声量逐步破圈的背后,有大量围绕可灵O1以及可灵2.6的“实测对比”、“落地场景”、“教程指南”等主题的内容和讨论——“大量C端和P端用户从围观发布转向展示结果,这是工具产品走向大规模落地的一种信号。”



可灵率先构建起更丰富完善的产品功能生态,为国产视频大模型赛道标注了新的速度与强度。而在生成式AI全面走向产业阶段的路线图上,下一阶段最重要的,是能够让创作者用AI生成完整好内容。



可灵此刻就希望推动这一变革的发生,它所带动的内容产业结构性变革,才刚刚开始。


 
举报 收藏
 
更多>同类生活资讯
推荐图文
推荐生活资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  赣ICP备2024040164号-4