TTS & SVC Survey (For Fun)
#Tacotron2
- Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions, ICASSP 2018
 
#VITS
- Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech, ICML 2021
 - 文本转语音 (TTS) 任务
 - 技术: 端到端
 
#SoftVC / HuBERT / Voice Conversion
- A Comparison of Discrete and Soft Speech Units for Improved Voice Conversion, ICASSP 2022
 - 声音转换 (Voice Conversion) 任务
 - HuBERT 模型
 
#MoeGoe
- B 站 UP 主 CjangCjengh 开源 https://github.com/CjangCjengh/MoeGoe
 - VITS 工具化
 - 基于 Tacotron2 版 Demo https://www.bilibili.com/video/BV1rV4y177Z7/
 - 基于 VITS 版 MoeGoe 工具 https://www.bilibili.com/video/BV1A8411t7sK/
 
#Fastpitch
#VITS2
- VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design, Interspeech 2023
 - 文本转语音 (TTS) 任务
 
#SoVITS / so-vits-svc 🔥🔥🔥
- B 站 UP 主 Rcell 开源 https://github.com/innnky/so-vits-svc (已删)
 - 歌声转换 (Singing Voice Conversion) 任务
 - 技术实现: 把 VITS2 中的 text encoder 替换为 SoftVC 中的 HuBERT
 - 荣誉: 时代周刊评价 2023 最佳发明 https://time.com/collection/best-inventions-2023/6327135/so-vits-svc/
 - 一些训练好的声音模型: https://huggingface.co/spaces/zomehwh/vits-models/tree/main/pretrained_models
 
#AI 峰哥
- 效果演示: https://www.bilibili.com/video/BV1w24y1c7z9/
 - Idea: Fastpitch + NLP 模型
 - MassTTS: https://github.com/anyvoiceai/MassTTS
 - ChatGLM-6B: https://github.com/lich99/ChatGLM-finetune-LoRA
 
#BERT-VITS2
- B 站 fishaudio 开源 https://www.bilibili.com/video/BV18E421371Q/ https://github.com/fishaudio/Bert-VITS2
 - 启发自 AI 峰哥
 - 技术实现: 把 VITS2 中的 text encoder 替换为 BERT
 
#OpenVoice
- 即时语音转换 (Immediate Voice Conversion, Zero-shot TTS) 任务
 
#RVC
- B 站 UP 主 花儿不哭 开源 https://www.bilibili.com/video/BV1pm4y1z7Gm/
 - 声音转换 (Voice Conversion) 任务
 - 10 分钟样本
 
#GPT-SoVITS
- B 站 UP 主 花儿不哭 开源 https://www.bilibili.com/video/BV12g4y1m7Uw/
 - 声音转换 (Voice Conversion) 任务
 - RVC 延续, 只需 5 ~ 10s 样本
 
#fish-speech
- https://github.com/fishaudio/fish-speech
 - Zero-shot TTS 任务
 - 基于自回归模型
 - 一段 5s 音频样本即可生成语音
 
#ChatTTS
- AI 峰哥新版本 https://github.com/2noise/ChatTTS
 - TTS 任务, 对话场景, 支持细粒度控制和韵律
 - 支持通过 LoRA 微调实现不同音色