前面主要说了一个图片转视频,但是声音克隆VALL-E X的效果还是差点意思,因为对中文的支持不是很友好,我发现了OpenVoice的克隆效果非常不错。

openvoice

因为b站上很多windows的整合包,但是没有mac的安装教程之类的。所以这个文章主要介绍mac如何安装OpenVoice。

下载anaconda

如果没有上网环境,可以公众号回复OpenVoice下载整合包。anaconda M1版在整合包中,intel版可以根据下面的教程下载。

立即下载

进入anaconda官网:https://www.anaconda.com/download

根据电脑情况下载对应版本:

下载

安装界面

clone

打开终端,输入cd,输入空格,然后将需要安装的地址文件夹拖拽到终端。

拖拽文件

最后的效果类似于cd /Users/zhheo/Desktop/我的项目

按下回车。

然后输入(需要上网环境)

1
git clone https://github.com/myshell-ai/OpenVoice.git

输入

1
cd OpenVoice

安装

按照下面的代码一行一行输入并回车。

1
2
3
4
conda create -n openvoice python=3.9
conda activate openvoice
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

下载checkpoints

此文件已包含在整合包。

下载地址:https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

放入到项目目录中。

checkpoints

使用

在终端输入命令

1
python openvoice_app.py

如果重新启动了终端(也就是以后打开),需要在程序文件夹(也就是OpenVoice文件夹内)执行下面的命令:

1
2
conda activate openvoice
python openvoice_app.py

执行成功

访问:http://127.0.0.1:7860

我们就可以看到界面啦

openvoice界面

简单使用教程

用户界面

以让乔布斯说中文为例。

Text Prompt

你想让乔布斯说的话。

Style

乔布斯说话的语气。

Reference Audio

乔布斯的原始语音,比如演讲,最好没有杂音。

许可

同意后点击发送。

发送

生成的语音

语音

点击右侧下载按钮即可下载

解除200字符限制

打开openvoice_app.py文件,注释掉或者删除下面的文本:

1
2
3
4
5
6
7
8
9
10
if len(prompt) > 200:
text_hint += f"[ERROR] Text length limited to 200 characters for this demo, please try shorter text. You can clone our open-source repo and try for your usage \n"
gr.Warning(
"Text length limited to 200 characters for this demo, please try shorter text. You can clone our open-source repo for your usage"
)
return (
text_hint,
None,
None,
)