豆包AI视频生成功能目前支持以下视频模型,涵盖不同技术特性和应用场景:
一、核心视频模型
- VideoWorld
-
由豆包团队与北京交通大学、中国科学技术大学联合开发,首次实现仅依赖视觉信息进行视频生成,突破传统语言模型依赖。
-
特点:无需语言输入,通过视频数据训练,支持复杂场景推理、规划和决策。
- S2.0
-
基础视频生成模型,支持文生视频和图生视频,10秒内生成完整故事。
-
核心能力:语义理解、多动作多主体交互、动态效果生成。
- P2.0Pro
- 高性能视频生成模型,优化了动态效果和镜头切换一致性,适用于影视创作和广告制作。
- 1.2
- 新一代视频生成模型,具体功能未详细说明,但属于豆包持续迭代的一部分。
二、其他相关模型
-
PixelDance
-
基于DiT架构,支持文生视频和图生视频,单次生成10秒视频,适配多场景应用。
-
特点:高效DiT融合计算单元、扩散模型训练方法,支持3D动画、2D动画、国画等多种风格。
-
Seaweed
-
基于Transformer结构,原生支持多分辨率生成(如720p、24fps),动态延长至20-30秒。
-
优势:跨平台适配(横屏/竖屏)、风格比例灵活调整。
三、应用场景
-
电商营销 :通过动态视频展示产品特点,提升转化率。
-
动画教育 :辅助制作教学视频,实现复杂动画效果。
-
城市文旅 :生成景区导览视频,增强游客体验。
-
微剧本 :快速生成剧情片段,降低创作成本。
四、技术优势
-
多镜头一致性 :实现复杂交互场景中镜头的无缝切换。
-
泛化能力 :通过扩散模型提升视频生成质量,减少对标注数据的依赖。
-
多风格适配 :支持3D/2D动画、国画、黑白等多种风格生成。
以上模型均处于不同阶段测试或已开放内测,部分功能可能随版本迭代进一步优化。