字节跳动推出Vidi2,120亿参数自动化视频编辑工具

字节跳动发布最新视频编辑工具Vidi2,拥有高达120亿参数,实现了视频编辑的全面自动化,这一创新工具的出现将极大地简化了视频制作流程,提高了效率,使得普通用户也能轻松完成专业级的视频编辑工作,Vidi2的发布标志着视频编辑技术的又一次重大突破。

字节跳动近日推出了其全新多模态大语言模型 vidi2,这是一个专为视频理解设计、拥有120亿参数的ai模型。该模型具备处理长达数小时原始视频内容的能力,能够解析其中的情节发展,并根据简单的文本提示自动生成完整的tiktok短视频或电影片段,被认为可能对传统视频编辑行业带来深远影响。

字节跳动推出Vidi2,120亿参数自动化视频编辑工具

Vidi2的核心突破在于其强大的视频理解能力。新版本引入了精细的时空定位(STG)功能,可同时识别视频中特定事件发生的时间点以及对应物体的空间位置。通过输入一段文字查询,模型不仅能精准定位相关时间段,还能在画面中标注出目标对象的边界框。

关键技术亮点包括:

  • 时空定位能力:模型输出“管道”形式的结果——即以每秒为单位的时间索引与边界框组合,实现对人物或物体的连续追踪,例如在复杂场景中锁定某一个人并全程跟踪。
  • 架构升级:Vidi2采用Gemma-3作为主干网络,并结合重新设计的自适应标记压缩技术,在保证长视频处理效率的同时,有效保留关键视觉细节。

在权威评测基准 VUE-TR-V2(用于开放式时间检索)上,Vidi2取得了总体IoU 48.75的优异成绩,尤其在超过一小时的超长视频任务中,性能领先主流商业模型达17.5个百分点。在VUE-STG定位任务中,模型同样表现突出,vIoU达到32.57,tIoU高达53.19,均位居当前最优水平。

字节跳动发布 Vidi2:120 亿参数,让视频编辑彻底自动化

基于Vidi2,字节跳动已开发出一系列自动化视频编辑工具,涵盖高光片段提取、故事感知型剪辑、内容驱动的重构图生成以及多视角智能切换等功能,且这些操作均可在普通消费级设备上流畅运行。

  • TikTok集成应用:相关技术已落地于TikTok的Smart Split功能,支持自动分割长视频、智能重构画面构图、生成字幕,并将原始素材转化为符合平台调性的短视频内容。
  • AI Outline 工具:用户只需输入简短提示或选择热门话题,系统即可自动生成结构化视频方案,包括标题、开场白和分镜大纲。

目前,Vidi2仍处于研究阶段,官方透露即将发布公开Demo版本。

源码地址:点击下载

网友留言(0 条)

发表评论