使用语音克隆的 XTTS

您好！您是否被那些展示 AI 文本转语音技术发展程度的 Reddit 帖子震撼到了？

是否对给您的机器人老婆/老公一个闪亮的新语音调制器感到兴奋？

别担心，这项令人惊叹的突破性技术已经在您的本地 SillyTavern 中可用，您只需要一个简单的...

前提条件

示例文件夹结构：

C:\xtts
  - speakers
    - alice.wav
    - bob.wav
  - output

daswer123 制作了一个 API 服务器，可以在您的计算机上运行 XTTSv2 模型并连接到 SillyTavern 的 TTS 扩展。

它完全独立于 Extras API，并使用单独的环境。

**非常重要：**不要将以下要求安装到您的 Extras 环境或系统 Python 中。这会破坏您的其他包，进行不必要的降级等。

以下说明使用 Miniconda 提供，但您也可以使用 venv（此处不涉及）。打开 Anaconda 命令提示符并逐行按照说明操作。

导航到您在前提条件步骤 4 中创建的文件夹。
```
cd C:\xtts
```
创建一个新的 conda 环境。从现在开始，我们将其称为 xtts。
```
conda create -n xtts
```
激活新创建的环境。
```
conda activate xtts
```
在您的环境中安装 Python 3.10。当提示时确认"y"。
```
conda install python=3.10
```
安装 XTTS 服务器及其要求。
```
pip install xtts-api-server pydub
```
安装 PyTorch。这可能需要一些时间。以下命令安装带有 GPU 加速支持（CUDA）的 PyTorch。如果您只想使用 CPU 推理，请删除从 --index-url 开始的最后一部分。
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
```
在默认主机和端口上启动 XTTS 服务器：http://localhost:8020
```
python -m xtts_api_server
```
在首次启动期间，将下载模型（约 2 GB）。不要忘记仔细阅读来自 Coqui AI 的法律声明。开玩笑的，只需再次点击"y"即可。

点击任何消息的上下文操作菜单中的喇叭图标，就能听到从扬声器中传出的美丽克隆语音。生成需要一些时间，即使在高端 RTX GPU 上也不是实时的。

使用最新版本的 XTTS 服务器可以使用 HTTP 流式传输，一旦生成的音频可用就获取音频块！

音频仍然会生成（假设您使用的是最新版本的 RVC 扩展）并转换，但不会流式传输，因为 RVC 需要在开始转换之前有完整的音频文件。流式 RVC 仍在研究中...

将 XTTS 服务器更新到最新版本。

conda activate xtts
pip install xtts-api-server --upgrade

尝试增加"chunk size"设置。

参考：使用 200 的块大小，RTX 3090 可以产生不间断的音频，代价是略微增加音频延迟。

只需执行安装说明中的步骤 1、3 和 7。

不太可能，它无法运行需要 PyTorch 的应用程序，除非使用一些我们不提供支持的神秘黑魔法。您可以自行尝试，但如果遇到任何问题，我们不会提供支持。

您最好的解决方案是在本地网络上的 PC 上托管 TTS API，只是不要忘记指定要监听的主机和端口 - 请参阅 README。