看到b站Al赵大师兄的视频感觉非常有趣,通过对话的方式来进行作品和人生的介绍。

视频

这个视频的制作流程首先可以拆分成两个人物说话的视频拼接,那么我们来分析一下。

文本

我愿称之为整个流程最简单的部分,基本大多数AI模型都能做,比如“请你扮演XXX”然后自己说一些话来提问。文案部分就不再赘述。

声音

目前看来通过VALL-E X生成声音会比较容易一些。如果你不喜欢自己部署,也可以进入下面任选一个地址访问

https://huggingface.co/spaces/Plachta/VALL-E-X

https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

如果想要本地部署项目,可以参考项目文档

https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md

B站也有很多关于VALL-E X的教程视频。

图像

我们首先要制作一个这个人的正脸图像。有条件的同学建议使用stablediffusion的controlnet的IP Adapter Full Face。没有条件的同学自己p一张也可以。要求:

绝对的正脸

为了较好的生成效果,一定要使用非常正的正脸。稍微侧一点都会让生成效果暴跌。可以理解为要求证件照。

图片来自网络

(此图片来自网络

嘴唇最好清晰明显

如果嘴唇比较小,甚至不可见,则输出的视频嘴唇也几乎不可见,就会让真实感变低。

视频

生成视频用到的是CrazyTalk软件。目前我只有Windows的学习版,来自油管@程序员老张。

立即下载

按照步骤执行一遍即可,注意汉化文件包解压一般不需要更改文件夹。

图片导入

将图片导入到crazytalk(直接拖拽进入即可),选择2d演员

选择2d

如果图片不合适,可以裁剪工具裁剪。最好是头像或者胸像。好了之后我们就下一步。

图像裁剪

眼角

控制四个点的位置调整眼角和嘴角位置。

调整点

调整面容点位置

根据五官位置细调

调整

脸部方向

因为我们是正脸,此步骤不需要调整

脸部方向

设置牙齿

点击OK之后,我们先来设置牙齿。

牙齿设置

右侧的牙齿我们可以选择第一个,然后根据参数进行调整。

调整牙齿

调整好了之后关闭窗口即可。

牙齿调整

输入声音

我们要导入我们之前生成的人物说话的音频。不要超过3分钟。如果超过了3分钟,请剪辑成多个3分钟音频。

导入音频

动作我们选择“仅嘴唇同步”

动作

生成效果