手机版 欢迎访问科技狐(www.zhbmm.com)网站

当前位置:主页 > 互联网 >

字节跳动数字人模型即将上线:一张图+音频即可生成视频

时间:2025-02-12 22:44:21|浏览:
据相关报道,字节跳动的 OmniHuman 数字人模型即将上线,以下是关于它的详细信息:
核心功能
是一款端到端多模态数字人视频生成框架,基于一张图片和运动信号(如音频、视频或两者)即可生成逼真的视频,支持特写、半身照、全身照等多种人物内容输入,能处理说话、唱歌、人与物体互动及复杂肢体动作等场景。
技术细节
输入方式:支持文本、图像、音频和姿态等多种模态输入,可分为驱动条件和外观条件两类。音频、姿态、文本特征都有各自对应的条件注入方式,外观条件则直接利用去噪声网络对输入图像进行特征编码。
训练方法:采用渐进式、多阶段的训练方法,依序进行混合条件训练,增加文本、图像、音频以及姿态模态参与训练的比例,并降低对应的训练占比,避免模型过于依赖较强条件进行运动生成。
输出成果:能生成头像、半身像、全身像等各种比例和身形的人像视频,不受画面尺寸限制,支持多种视觉和音频风格,可生成逼真的演唱、演奏视频,显著改善了手势处理效果。
应用场景
娱乐领域:可生成逼真的虚拟偶像表演或虚拟主播直播画面,为娱乐行业带来全新创作方式,为粉丝经济注入新活力。
教育领域:能为教师提供快速生成教学视频的工具,使教学内容更生动有趣,学生也可用于生成自己的学习视频,提高学习效果和积极性。
虚拟现实领域:通过实时渲染和风格迁移功能,可为用户带来更加沉浸式的 VR 体验,在游戏娱乐和职业培训等场景发挥作用。
安全保障
即梦AI 会对这一功能设置严格的安全审核机制,并对输出的视频标注水印以作提醒,确保 AI 发挥正面、积极的作用,避免不当使用带来的问题。

Copyright © 2010-2026 科技狐 版权所有 苏ICP12345678 XML地图