TTS & SVC 简记
#Tacotron2
- Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions, ICASSP 2018
#VITS
- Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech, ICML 2021
- 文本转语音 (TTS) 任务
- 技术: 端到端
#SoftVC / HuBERT / Voice Conversion
- A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion, ICASSP 2022
- 声音转换 (Voice Conversion) 任务
- HuBERT模型
#MoeGoe
- B站UP主 CjangCjengh 开源 https://github.com/CjangCjengh/MoeGoe
- VITS 工具化
- 基于Tacotron2版 Demo https://www.bilibili.com/video/BV1rV4y177Z7/
- 基于VITS版 MoeGoe工具 https://www.bilibili.com/video/BV1A8411t7sK/
#Fastpitch
#VITS2
- VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design, Interspeech 2023
- 文本转语音 (TTS) 任务
#SoVITS / so-vits-svc 🔥🔥🔥
- B站UP主 Rcell 开源 https://github.com/innnky/so-vits-svc (已删)
- 歌声转换 (Singing Voice Conversion) 任务
- 技术实现: 把 VITS2 中的 text encoder 替换为 SoftVC 中的 HuBERT
- 荣誉: 时代周刊评价 2023 最佳发明 https://time.com/collection/best-inventions-2023/6327135/so-vits-svc/
- 一些训练好的声音模型: https://huggingface.co/spaces/zomehwh/vits-models/tree/main/pretrained_models
#AI峰哥
- 效果演示: https://www.bilibili.com/video/BV1w24y1c7z9/
- Idea: Fastpitch + NLP模型
- MassTTS: https://github.com/anyvoiceai/MassTTS
- ChatGLM-6B: https://github.com/lich99/ChatGLM-finetune-LoRA
#BERT-VITS2
- B站 fishaudio 开源 https://www.bilibili.com/video/BV18E421371Q/ https://github.com/fishaudio/Bert-VITS2
- 启发自 AI峰哥
- 技术实现: 把 VITS2 中的 text encoder 替换为 BERT
#OpenVoice
- 即时语音转换 (Immediate Voice Conversion, Zero-shot TTS) 任务
#RVC
- B站UP主 花儿不哭 开源 https://www.bilibili.com/video/BV1pm4y1z7Gm/
- 声音转换 (Voice Conversion) 任务
- 10分钟样本
#GPT-SoVITS
- B站UP主 花儿不哭 开源 https://www.bilibili.com/video/BV12g4y1m7Uw/
- 声音转换 (Voice Conversion) 任务
- RVC 延续, 只需 5 ~ 10s 样本
#fish-speech
- https://github.com/fishaudio/fish-speech
- Zero-shot TTS 任务
- 基于自回归模型
- 一段 5s 音频样本即可生成语音
#ChatTTS
- AI峰哥新版本 https://github.com/2noise/ChatTTS
- TTS 任务, 对话场景, 支持细粒度控制和韵律
- 支持通过 LoRA 微调实现不同音色