目 录CONTENT

文章目录
AI

3秒克隆你的声音,阿里巴巴开源AI语音CosyVoice

ToolWiki
2024-10-01 / 0 评论 / 0 点赞 / 20 阅读 / 6242 字

CosyVoice_git-2024100100245766-water.png

简单介绍

  • 支持3秒克隆任何人的声音

  • 支持语气调整

  • 支持中日韩三国语言

官方介绍

语音合成CosyVoice大模型服务是依托大规模预训练语言模型,深度融合文本理解和语音生成的一项新型语音合成技术,能够精准解析并诠释各类文本内容,将其转化为宛如真人般的自然语音。

产品优势

  • 高度拟人化:采用阿里通义语音实验室自研的CosyVoice 生成式神经网络语音大模型算法,使生成的语音在语调、韵律、情感表达等方面达到超拟人程度。

  • 多样化音色选择:提供海量优质的音库资源,包括不同性别、年龄、方言以及各种特色声音,满足用户在不同场景下的个性化需求。无论是新闻播报的庄重严肃,还是故事讲述的情感丰富,都能轻松驾驭。

  • 实时高效合成:系统具有出色的响应速度和流式语音合成处理能力,无论是长篇文档还是短句指令,都能实现快速、准确的实时语音合成。

  • 支持富语言声音事件以及多情感的高拟人语音生成,例如笑声、语气词等,以及不同情感表现的高拟人语音生成。

  • 灵活应用广泛:适用于多种应用场景,如智能客服、有声读物、车载导航、教育辅导等,极大地拓宽了语音交互的可能性,提升用户体验的同时,也为企业智能化转型提供了强大支持。

安装过程(系统是新装的Windows,小白照着也会安装成功,详细过程看视频)

安装ffmpeg,并配置环境变量

ffmpeg -version

安装VisualStudio社区版

安装Python 3.10

python -version

安装最新Nvidia驱动

nvidia-smi

安装CUDA,版本选择12.3,最低要大于11.8

安装CUDNN,版本与CUDA相同

nvcc -V

安装Miniconda 310版本

conda -version

命令安装相关依赖

  • conda增加清华源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
  • 创建虚拟环境,在代码根目录的文件夹中打开CMD

conda create -n cosyvoice python=3.10
conda activate cosyvoice

  • 下载第三方库

conda install -y -c conda-forge pynini==2.1.5 pyarrow
  • requirements.txt修改内容,删除onnxruntime-gpu==1.16.0; sys_platform == 'linux'

  • requirements.txt修改内容,onnxruntime==1.16.0这一行只保留这一句

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
  • 新建代码download.py, 内容如下:

from modelscope import snapshot_download
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
  • 执行这个python文件

python download.py

设置启动文件

  • 新建三个批处理文件,依次为:克隆加跨语种.bat内置加语气微调.bat内置音色.bat

@echo off
call conda activate cosyvoice
start http://127.0.0.1:50001
python webui.py --port 50001 --model_dir pretrained_models/CosyVoice-300M
pause
@echo off
call conda activate cosyvoice
start http://127.0.0.1:50002
python webui.py --port 50002 --model_dir pretrained_models/CosyVoice-300M-Instruct
pause
@echo off
call conda activate cosyvoice
start http://127.0.0.1:50000
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M-SFT
pause

启动AI模型

双击打开上面的bat文件,等待启动完成,刷新浏览器网页即可。

(建议用到哪个开哪个)

成品-2024100109192862-water.jpg

相关资源和安装包下载

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin
  3. QQ打赏

    qrcode qq

评论区