字节跳动数字人模型即将上线：一张图+音频即可生成视频

时间：2025-02-12 22:44:21|浏览：次

据相关报道，字节跳动的 OmniHuman 数字人模型即将上线，以下是关于它的详细信息：

核心功能

是一款端到端多模态数字人视频生成框架，基于一张图片和运动信号（如音频、视频或两者）即可生成逼真的视频，支持特写、半身照、全身照等多种人物内容输入，能处理说话、唱歌、人与物体互动及复杂肢体动作等场景。

技术细节

输入方式：支持文本、图像、音频和姿态等多种模态输入，可分为驱动条件和外观条件两类。音频、姿态、文本特征都有各自对应的条件注入方式，外观条件则直接利用去噪声网络对输入图像进行特征编码。

训练方法：采用渐进式、多阶段的训练方法，依序进行混合条件训练，增加文本、图像、音频以及姿态模态参与训练的比例，并降低对应的训练占比，避免模型过于依赖较强条件进行运动生成。

输出成果：能生成头像、半身像、全身像等各种比例和身形的人像视频，不受画面尺寸限制，支持多种视觉和音频风格，可生成逼真的演唱、演奏视频，显著改善了手势处理效果。

应用场景

娱乐领域：可生成逼真的虚拟偶像表演或虚拟主播直播画面，为娱乐行业带来全新创作方式，为粉丝经济注入新活力。

教育领域：能为教师提供快速生成教学视频的工具，使教学内容更生动有趣，学生也可用于生成自己的学习视频，提高学习效果和积极性。

虚拟现实领域：通过实时渲染和风格迁移功能，可为用户带来更加沉浸式的 VR 体验，在游戏娱乐和职业培训等场景发挥作用。

安全保障

即梦AI 会对这一功能设置严格的安全审核机制，并对输出的视频标注水印以作提醒，确保 AI 发挥正面、积极的作用，避免不当使用带来的问题。

热门导读

编辑推荐