博客快捷键

shift

K

关闭快捷键功能

shift

A

打开中控台

shift

M

播放音乐

shift

D

深色/浅色显示模式

shift

S

站内搜索

shift

C

打开PostChat

shift

R

随机访问

shift

H

返回首页

shift

F

友链鱼塘

shift

L

友链页面

shift

P

关于本站

智能客服与搜索

原创经验分享

如何用一张图片生成说话视频

字数:679阅读耗时:2分钟2024-01-12公众号同步北京热度:

评论:

HeoGPT

这篇文章介绍了分析一个视频制作流程。文章首先提到，视频制作主要分为文本、声音、图像和视频几个部分。文本部分由AI模型生成，声音则通过VALL-E X生成，还提供了相关的资源链接。在图像制作方面，作者强调了使用正脸图像的重要性，并提出了嘴唇要清晰可见的要求。视频部分主要使用CrazyTalk软件，详细介绍了如何导入图像、调整脸部特征和导入声音等步骤。文章还展示了一系列制作过程中的示例图片，以及提供了相关软件的下载链接。

看到b站Al赵大师兄的视频感觉非常有趣，通过对话的方式来进行作品和人生的介绍。

这个视频的制作流程首先可以拆分成两个人物说话的视频拼接，那么我们来分析一下。

文本

我愿称之为整个流程最简单的部分，基本大多数AI模型都能做，比如“请你扮演XXX”然后自己说一些话来提问。文案部分就不再赘述。

声音

目前看来通过VALL-E X生成声音会比较容易一些。如果你不喜欢自己部署，也可以进入下面任选一个地址访问

https://huggingface.co/spaces/Plachta/VALL-E-X

https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing

如果想要本地部署项目，可以参考项目文档

https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md

B站也有很多关于VALL-E X的教程视频。

图像

我们首先要制作一个这个人的正脸图像。有条件的同学建议使用stablediffusion的controlnet的IP Adapter Full Face。没有条件的同学自己p一张也可以。要求：

绝对的正脸

为了较好的生成效果，一定要使用非常正的正脸。稍微侧一点都会让生成效果暴跌。可以理解为要求证件照。

图片来自网络

（此图片来自网络）

嘴唇最好清晰明显

如果嘴唇比较小，甚至不可见，则输出的视频嘴唇也几乎不可见，就会让真实感变低。

视频

生成视频用到的是CrazyTalk软件。目前我只有Windows的学习版，来自油管@程序员老张。

按照步骤执行一遍即可，注意汉化文件包解压一般不需要更改文件夹。

图片导入

将图片导入到crazytalk（直接拖拽进入即可），选择2d演员

选择2d

如果图片不合适，可以裁剪工具裁剪。最好是头像或者胸像。好了之后我们就下一步。

图像裁剪

眼角

控制四个点的位置调整眼角和嘴角位置。

调整点

调整面容点位置

根据五官位置细调

脸部方向

因为我们是正脸，此步骤不需要调整

脸部方向

设置牙齿

点击OK之后，我们先来设置牙齿。

牙齿设置

右侧的牙齿我们可以选择第一个，然后根据参数进行调整。

调整牙齿

调整好了之后关闭窗口即可。

牙齿调整

输入声音

我们要导入我们之前生成的人物说话的音频。不要超过3分钟。如果超过了3分钟，请剪辑成多个3分钟音频。

导入音频

动作我们选择“仅嘴唇同步”

生成效果

头像背景

Guli形象

张洪Heo

分享设计与科技生活

打赏作者

感谢你赐予我前进的力量

微信
支付宝

打赏者名单

因为你们的支持让我意识到写文章的价值🙏

本文是原创文章，采用 CC BY-NC-ND 4.0 协议，完整转载请注明来自张洪Heo

教程391 视频23

反馈与投诉

喜欢这篇文章的人也看了

如何获取视频的LUFS（响度单位）？通过视频文件测量视频音量响度水平

AE制作数字增长动画，数字变化动画制作教程

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果

输入内容后点我进行AI智能搜索推荐