字节跳动推出Vidi2，120亿参数自动化视频编辑工具

2026-01-09/ 9 次浏览/ 资讯

字节跳动发布最新视频编辑工具Vidi2，拥有高达120亿参数，实现了视频编辑的全面自动化，这一创新工具的出现将极大地简化了视频制作流程，提高了效率，使得普通用户也能轻松完成专业级的视频编辑工作，Vidi2的发布标志着视频编辑技术的又一次重大突破。

字节跳动近日推出了其全新多模态大语言模型 vidi2，这是一个专为视频理解设计、拥有120亿参数的ai模型。该模型具备处理长达数小时原始视频内容的能力，能够解析其中的情节发展，并根据简单的文本提示自动生成完整的tiktok短视频或电影片段，被认为可能对传统视频编辑行业带来深远影响。

Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位（STG）功能，可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询，模型不仅能精准定位相关时间段，还能在画面中标注出目标对象的边界框。

关键技术亮点包括：

在权威评测基准 VUE-TR-V2（用于开放式时间检索）上，Vidi2取得了总体IoU 48.75的优异成绩，尤其在超过一小时的超长视频任务中，性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中，模型同样表现突出，vIoU达到32.57，tIoU高达53.19，均位居当前最优水平。

字节跳动发布 Vidi2：120 亿参数，让视频编辑彻底自动化

基于Vidi2，字节跳动已开发出一系列自动化视频编辑工具，涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能，且这些操作均可在普通消费级设备上流畅运行。

TikTok集成应用：相关技术已落地于TikTok的Smart Split功能，支持自动分割长视频、智能重构画面构图、生成字幕，并将原始素材转化为符合平台调性的短视频内容。
AI Outline 工具：用户只需输入简短提示或选择热门话题，系统即可自动生成结构化视频方案，包括标题、开场白和分镜大纲。

目前，Vidi2仍处于研究阶段，官方透露即将发布公开Demo版本。

源码地址：点击下载

<< 上一篇

下一篇 >>