如何用一张图片生成说话视频
看到b站Al赵大师兄的视频感觉非常有趣,通过对话的方式来进行作品和人生的介绍。
这个视频的制作流程首先可以拆分成两个人物说话的视频拼接,那么我们来分析一下。
文本
我愿称之为整个流程最简单的部分,基本大多数AI模型都能做,比如“请你扮演XXX”然后自己说一些话来提问。文案部分就不再赘述。
声音
目前看来通过VALL-E X生成声音会比较容易一些。如果你不喜欢自己部署,也可以进入下面任选一个地址访问
https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing
如果想要本地部署项目,可以参考项目文档
https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md
B站也有很多关于VALL-E X的教程视频。
图像
我们首先要制作一个这个人的正脸图像。有条件的同学建议使用stablediffusion的controlnet的IP Adapter Full Face。没有条件的同学自己p一张也可以。要求:
绝对的正脸
为了较好的生成效果,一定要使用非常正的正脸。稍微侧一点都会让生成效果暴跌。可以理解为要求证件照。
(此图片来自网络)
嘴唇最好清晰明显
如果嘴唇比较小,甚至不可见,则输出的视频嘴唇也几乎不可见,就会让真实感变低。
视频
生成视频用到的是CrazyTalk软件。目前我只有Windows的学习版,来自油管@程序员老张。
按照步骤执行一遍即可,注意汉化文件包解压一般不需要更改文件夹。
图片导入
将图片导入到crazytalk(直接拖拽进入即可),选择2d演员
如果图片不合适,可以裁剪工具裁剪。最好是头像或者胸像。好了之后我们就下一步。
眼角
控制四个点的位置调整眼角和嘴角位置。
调整面容点位置
根据五官位置细调
脸部方向
因为我们是正脸,此步骤不需要调整
设置牙齿
点击OK之后,我们先来设置牙齿。
右侧的牙齿我们可以选择第一个,然后根据参数进行调整。
调整好了之后关闭窗口即可。
输入声音
我们要导入我们之前生成的人物说话的音频。不要超过3分钟。如果超过了3分钟,请剪辑成多个3分钟音频。
动作我们选择“仅嘴唇同步”
生成效果
- 感谢你赐予我前进的力量