
如何用一张图片生成说话视频
看到b站Al赵大师兄的视频感觉非常有趣,通过对话的方式来进行作品和人生的介绍。

这个视频的制作流程首先可以拆分成两个人物说话的视频拼接,那么我们来分析一下。
文本
我愿称之为整个流程最简单的部分,基本大多数AI模型都能做,比如“请你扮演XXX”然后自己说一些话来提问。文案部分就不再赘述。
声音
目前看来通过VALL-E X生成声音会比较容易一些。如果你不喜欢自己部署,也可以进入下面任选一个地址访问
https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing
如果想要本地部署项目,可以参考项目文档
https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md
B站也有很多关于VALL-E X的教程视频。
图像
我们首先要制作一个这个人的正脸图像。有条件的同学建议使用stablediffusion的controlnet的IP Adapter Full Face。没有条件的同学自己p一张也可以。要求:
绝对的正脸
为了较好的生成效果,一定要使用非常正的正脸。稍微侧一点都会让生成效果暴跌。可以理解为要求证件照。

(此图片来自网络)
嘴唇最好清晰明显
如果嘴唇比较小,甚至不可见,则输出的视频嘴唇也几乎不可见,就会让真实感变低。
视频
生成视频用到的是CrazyTalk软件。目前我只有Windows的学习版,来自油管@程序员老张。
按照步骤执行一遍即可,注意汉化文件包解压一般不需要更改文件夹。
图片导入
将图片导入到crazytalk(直接拖拽进入即可),选择2d演员

如果图片不合适,可以裁剪工具裁剪。最好是头像或者胸像。好了之后我们就下一步。

眼角
控制四个点的位置调整眼角和嘴角位置。

调整面容点位置
根据五官位置细调

脸部方向
因为我们是正脸,此步骤不需要调整

设置牙齿
点击OK之后,我们先来设置牙齿。

右侧的牙齿我们可以选择第一个,然后根据参数进行调整。

调整好了之后关闭窗口即可。

输入声音
我们要导入我们之前生成的人物说话的音频。不要超过3分钟。如果超过了3分钟,请剪辑成多个3分钟音频。

动作我们选择“仅嘴唇同步”

生成效果

- 感谢你赐予我前进的力量


























