当前的位置: 首页 > 文章列表 > 手机平板 > 短板补齐挑战Google?可灵2.6支持音画同步生成

— 短板补齐挑战Google?可灵2.6支持音画同步生成 —

更新时间:2025-12-03 17:32:54 编辑:丁丁小编

在备受瞩目的 Omni 生态周首日,快手旗下的视频生成模型可灵 AI(Kling AI)再次展现了其在多模态领域的野心,正式发布了版本号为 2.6 的重大更新。这一次,技术的演进不再局限于画面的精细度,而是向着更具挑战性的感官维度迈进。官方打出的口号听见画面,看见声音,直指其核心卖点:首次内置音频生成能力,实现了文本、视频、音频三者之间的一键闭环。这意味着,困扰 AI 视频行业已久的哑巴电影时代,或许将由这款模型画上句号。

技术规格方面,可灵 2.6 在保持 10 秒 1080P 高清输出基准的同时,通过算法优化大幅降低了算力成本。每生成 5 秒视频仅需消耗 25 积分,较上一版本降幅达 30%,这一激进的定价策略无疑将进一步加速 AI 视频工具的普及。在底层架构上,新版本采用了扩散变换器与 3D 时空联合注意力机制的深度融合。这套复杂的架构带来了三项关键指标的质变:首先是模型对复杂指令的理解与执行能力提高了 15%,不再出现听不懂人话的尴尬;其次是跨镜头角色一致性达到了目前的行业最高水平(SOTA),解决了长视频制作中主角频繁换脸的痛点;最后,在与竞争对手 Seedance 1.0 的盲测对比中,可灵 2.6 取得了惊人的 285% 胜率,呈现出压倒性的技术优势。

本次更新的最大亮点在于其对声音的掌控。可灵 2.6 支持中英双语的对白生成、歌唱演绎以及环境音效的同步输出。创作者无需再为生成的视频单独寻找配音或音效素材,模型能够根据画面内容自动匹配相应的听觉元素,真正做到了音画合一。

在市场落地层面,快手选择了一条更为专业的路线。Kling 2.6 将率先登陆 Artlist 等全球知名的素材与创作平台,并提供场景扩展与多元素编辑的 API 接口。这一举措精准瞄准了影视制作、短剧开发、广告创意及 MV 拍摄等专业领域,试图将 AI 工具从玩具升级为生产力工具。此外,快手官方还公布了令人期待的后续路线图,承诺将在 2026 年第一季度推出支持 4K 分辨率及 60 帧率的超高清版本,并开放自定义声线库,让创作者能够定制专属的角色声音,进一步降低 AI 制片的门槛。

行业分析人士普遍认为,音频同步生成功能的补齐,填补了 AI 视频技术栈中的最后一块短板。对于内容创作者而言,这意味着繁琐的后期配音与音效剪辑流程有望缩短 50% 以上,极大地释放了产能。随着可灵 2.6 的落地,AI 创作工具的竞争维度已然升级,从单纯的比拼画面生成质量,延伸到了对视听语言的整体把控。可以预见,随着供给侧效率的爆发,新一轮的有声短视频内容红利期即将来临。

本文转载于:https://www.sohu.com/a/961148710_223764 如有侵犯,请联系dddazheyh@163.com删除

热门优惠券

更多