在Mac上使用CosyVoice教程:人声克隆,跨语种复刻、AITTS文本转语音
效果预览
https://zhheo.lanzoul.com/iYfgu278o83i
安装Conda
到conda官网安装Conda
下载安装包
下面两个地址从哪里下载都可以
项目地址:立即访问
国内可以用下载地址(蓝奏云):立即下载
也可以直接使用git clone命令
git clone https://github.com/v3ucn/CosyVoice_for_MacOs.git
打开终端
在启动台打开其他文件夹,打开终端app。
如果是下载压缩包的,输入cd
然后再输入空格,将解压后的文件夹拖拽进去。
如果是使用git clone命令的,只需要执行cd CosyVoice_for_MacOs
按回车
创建conda虚拟环境
让我们回到终端,输入
1 | conda create -n cosyvoice python=3.8 |
输入y回车
成功截图:
激活虚拟环境
激活刚才创建的虚拟环境。
1 | conda activate cosyvoice |
安装python依赖
输入
1 | pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com |
输入完回车开始安装所需要的依赖。这个过程需要很长时间。
出现了:ERROR: Could not open requirements file: [Errno 2] No such file or directory: ‘requirements.txt’
这说明你没有正确的执行前面教程的cd进入目录部分。你需要重新看上面的“打开终端”部分,然后再继续执行
安装成功后会恢复输入状态:
安装homebrew
接下来需要安装Homebrew,已经安装的可以跳过。
没有安装过的可以在终端执行:
1 | /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.sh)" |
安装sox
在终端执行
1 | brew install sox |
设置环境变量
执行
1 | export PYTHONPATH=third_party/AcademiCodec:third_party/Matcha-TTS |
启动
我们可以执行下面的命令启动:
1 | python3 webui.py --port 50000 --model_dir speech_tts/CosyVoice-300M |
在这个过程中会下载所需要的文件
遇到了报错ValueError: When localhost is not accessible, a shareable link must be created. Please set share=True or check your proxy settings to allow access to localhost.
可以修改webui.py文件的第170行
demo.launch(server_port=args.port)
改为:
demo.launch(server_port=args.port, share=True)
启动成功样式;
报错modelscope问题:
/Users/zhheo/anaconda3/envs/cosyvoice/lib/python3.8/site-packages/modelscope/models/science/unifold/msa/tools/hmmsearch.py, a related error excepted in the file /Users/zhheo/anaconda3/envs/cosyvoice/lib/python3.8/site-packages/modelscope/utils/ast_utils.py at line: 152: “attr = getattr(node, field)” with error msg: “AttributeError: ‘ClassDef’ object has no attribute ‘type_params’”, please double check the origin file /Users/zhheo/anaconda3/envs/cosyvoice/lib/python3.8/site-packages/modelscope/models/science/unifold/msa/tools/hmmsearch.py to see whether the file is correctly edited.
可以尝试重新安装modelscope,执行:
pip uninstall modelscope
pip install modelscope
访问webui
教程:使用预设音色文本转语音
我们可以选择推理模式为预训练音色。
选择音色
输入需要合成的文本,注意最后以标点符号结尾
点击生成音频即可。
右上角的下载按钮可以进行下载。
跨语种复刻
找了一段乔布斯说话的声音。确保音频、文本内容一致,并与合成文本语言不同。注意最后以标点符号结尾
退出
关掉终端窗口即可退出应用,释放内存占用。
下次启动
打开终端,cd进项目目录,然后执行
1 | conda activate cosyvoice |
然后执行
1 | export PYTHONPATH=third_party/AcademiCodec:third_party/Matcha-TTS && python3 webui.py --port 50000 --model_dir speech_tts/CosyVoice-300M |
鸣谢
这个mac适配项目由刘悦提供
有关windows的安装教程可以参阅刘悦博客的CosyVoice多语言、音色和情感控制模型
- 感谢你赐予我前进的力量