我从来没有写过关于声音克隆的文章,所以这次我来弥补一下。毕竟,这会经常使用,也将为您将来进行更个性化的配音做好准备。
TTS的官方英文名称为Text To Speech,中文翻译为“文字转语音”。 TTS技术使计算机能够将文本信息转换为人类可以理解的语音输出,实现语音合成功能。
目前市场上的AI语音
我们最常用的是常规TTS,您可以指定一个人的声音并通过软件输出文本。我曾经写过一个名为TTS的免费小软件,但它的API来自微软。了解如何开发一个满足您需求的免费文本转语音小工具(此处无法插入链接,请联系编辑)
如果觉得功能少的话,也可以使用日本的Magic Sound Workshop,不过要收费。
但是,这些都不允许您指定语音转换,因此这里我们使用语音克隆来训练具有指定人声的模型,以将文本转换为音频。
接下来我就讲解一下声音克隆的要点。
开源项目地址:https://github.com/fishaudio/Bert-VITS2https://github.com/RVC-Boss/GPT-SoVITS
GPT-苏联
GPT-SoVITS是由RVC Voice Changer(GitHub上昵称RVC-Boss)创始人和AI音调转换技术专家Rcell开发的开源项目。这是一个跨语言的声音克隆工具,专注于声音转换和克隆。
巴特-VITS2
Bert-VITS2是由社区开发者Fishaudio发起的开源项目,基于VITS(文本转语音变分推理)模型开发,提供高质量的文本转语音(TTS)服务,目的是提供服务。
GPT-SoVITS 在训练时间上具有明显的优势,因为它支持少样本学习,并允许在短时间内(例如1 分钟的音频数据)训练具有相似音色的模型。
Bert-VITS2可能需要更长的训练时间(1-4小时)才能实现高质量的语音合成,特别是在数据集很大或者模型比较复杂的情况下。
简单来说,如果你想要更稳定、标准的声音,经过努力和坚持使用,选择Bert-VITS。
如果您想快速实现语言之间的语音克隆,请选择GPT-SoVITS。
这里我们将以GPT-SoVITS为例,创建一个详细的教程。
因为即使我写了Bert-VITS,我感觉很多人也没有时间去尝试,因为它需要几个小时的训练和大量的数据收集。这里强烈推荐GPT-SoVITS。开始吧!
首先,在OpenBayes 平台上注册一个帐户
注册OpenBayes的新用户可以免费使用RTX4090 3小时。您可以使用下面的注册链接添加额外一小时的免费使用时间。
https://openbayes.com/console/signup r=huawang_zL1B
尝试使用您自己的绑定数据集(Genshin Kori) 进行训练。
1 GPT-SoVITS 一键克隆环境:
选择公共资源下的公共教程,然后选择GPT-SoVITS 音频合成在线演示。
2 GPT-SoVITS 一键克隆环境
单击右上角的“Clone”,然后选择“Review and Run”继续运行。
等待几分钟直至数据同步成功。
3 完成后,打开工作区
4 打开run.ipynb并一键运行所有单元格
5 等待几秒执行完成,然后打开输出的公共URL
6 打开音频并选择数据类型
7 点击开始训练
8 等待几分钟以完成训练
在后台,您可以看到15 个epoch 后训练成功,在前端,您可以看到模型已经开始进行预测。
9 打开原来的Jupyter工作区,选择API地址
API地址需要实名认证,但即使未认证,认证后返回时该地址也是可见的。
10 打开你的API地址并开始玩
选择训练好的GPT 和SoVITS 模型,然后输入要推理的文本,例如“欢迎。训练成功。单击开始推理”。
(这里上面的选择是错误的;训练好的模型通常是最后一个。先看看你定义的模型的名称。)
这样就可以先在绑定的数据集上成功训练声音模型了。
效果如下
原神可力之语音AI创建语音克隆最全最简单教程(官方版)
开始选择自己的数据集
首先,关闭之前启动的容器
1 准备30秒到1分钟的音频素材
这里我们以李雪健老师为例。
与任何健全的克隆项目一样,数据集的质量决定了产品的质量。噪音越干净、越纯净越好。
使用录音软件(录音软件)录制相关音频,放入剪辑过程中,并打开所有人类音频选项。为避免造成麻烦,处理结果不会公开。大约1分36秒。
2 上传数据集
3 更改设置并开始
点击模型训练,进入刚刚跑的项目。
单击“编辑配置并启动”
配置并运行您自己的数据
继续点击直至启动成功,打开工作区,重复上面的训练步骤。
4 将training输入到新绑定的数据集目录中
5 重复第一步,最后看效果
说中文的效果
Khlong Li Xu Jiang – 中文
说英语的有效性
克隆人李雪健英文版
最后,虽然这个教程看起来有点过头了,但事实是,为了满足各类不懂编程的人并顺利创建声音克隆,我为每个步骤创建了尽可能多的图像,也许我只是。我尽力完整地发布它。
该项目注重省时省力,目前被认为是性价比和速度之神。
对于英语,我们建议访问llElementlabs。
这篇文章并不容易。如果您喜欢,请点击“赞”并阅读。谢谢。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/651039.html