3秒克隆你的声音，阿里巴巴开源AI语音CosyVoice-工具百科

简单介绍

支持3秒克隆任何人的声音
支持语气调整
支持中日韩三国语言

官方介绍

语音合成CosyVoice大模型服务是依托大规模预训练语言模型，深度融合文本理解和语音生成的一项新型语音合成技术，能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。

产品优势

高度拟人化：采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法，使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。
多样化音色选择：提供海量优质的音库资源，包括不同性别、年龄、方言以及各种特色声音，满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃，还是故事讲述的情感丰富，都能轻松驾驭。
实时高效合成：系统具有出色的响应速度和流式语音合成处理能力，无论是长篇文档还是短句指令，都能实现快速、准确的实时语音合成。
支持富语言声音事件以及多情感的高拟人语音生成，例如笑声、语气词等，以及不同情感表现的高拟人语音生成。
灵活应用广泛：适用于多种应用场景，如智能客服、有声读物、车载导航、教育辅导等，极大地拓宽了语音交互的可能性，提升用户体验的同时，也为企业智能化转型提供了强大支持。

安装过程（系统是新装的Windows，小白照着也会安装成功，详细过程看视频）

安装ffmpeg，并配置环境变量

ffmpeg -version

安装VisualStudio社区版

安装Python 3.10

python -version

安装最新Nvidia驱动

nvidia-smi

安装CUDA，版本选择12.3，最低要大于11.8

安装CUDNN，版本与CUDA相同

nvcc -V

安装Miniconda 310版本

conda -version

命令安装相关依赖

conda增加清华源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

创建虚拟环境，在代码根目录的文件夹中打开CMD

conda create -n cosyvoice python=3.10
conda activate cosyvoice

下载第三方库

conda install -y -c conda-forge pynini==2.1.5 pyarrow

requirements.txt修改内容，删除onnxruntime-gpu==1.16.0; sys_platform == 'linux'
requirements.txt修改内容，onnxruntime==1.16.0这一行只保留这一句

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

新建代码download.py，内容如下：

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

执行这个python文件

python download.py

设置启动文件

新建三个批处理文件，依次为：克隆加跨语种.bat、内置加语气微调.bat、内置音色.bat

@echo off
call conda activate cosyvoice
start http://127.0.0.1:50001
python webui.py --port 50001 --model_dir pretrained_models/CosyVoice-300M
pause

@echo off
call conda activate cosyvoice
start http://127.0.0.1:50002
python webui.py --port 50002 --model_dir pretrained_models/CosyVoice-300M-Instruct
pause

@echo off
call conda activate cosyvoice
start http://127.0.0.1:50000
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT
pause

启动AI模型

双击打开上面的bat文件，等待启动完成，刷新浏览器网页即可。

（建议用到哪个开哪个）

成品-2024100109192862-water.jpg

目录CONTENT

3秒克隆你的声音，阿里巴巴开源AI语音CosyVoice

简单介绍

官方介绍

产品优势

安装过程（系统是新装的Windows，小白照着也会安装成功，详细过程看视频）

安装ffmpeg，并配置环境变量

安装VisualStudio社区版

安装Python 3.10

安装最新Nvidia驱动

安装CUDA，版本选择12.3，最低要大于11.8

安装CUDNN，版本与CUDA相同

安装Miniconda 310版本

命令安装相关依赖

设置启动文件

启动AI模型

相关资源和安装包下载

评论区