MeloTTS:由MyShell AI开发的一个高质量的多语言文本到语音(TTS)库。
支持英语、西班牙语、法语、中文、日语和韩语等多种语言。
速度非常快,支持中英混合的发音,能生成清晰、自然的语音输出。
即使在普通的在CPU上也能实现实时语音合成。
主要功能:
- 多语言支持:MeloTTS支持多种语言的文本到语音转换,包括英语(有美国、英国、印度、澳大利亚等多种口音)、西班牙语、法语、中文、日语和韩语。这使得它适用于全球多种语言环境的应用场景。
- 中英混合发音:特别对于中文,MeloTTS支持中英混合的发音,这是在多语言交流中非常实用的功能,能够处理包含英文单词的中文文本。
- 实时CPU推理:MeloTTS设计优化以确保即使在没有GPU加速的情况下,也能在CPU上实现实时语音合成,这提高了其在不同硬件环境下的可用性。
- 高质量语音输出:MeloTTS旨在生成清晰、自然的语音输出,力求在各种支持的语言中保持语音的自然度和清晰度。
- 易于安装和使用:提供了简单的安装指南和Python API,使得用户可以轻松地在Linux环境中安装MeloTTS,并通过几行代码实现文本到语音的转换。
Linux and macOS Install
The repo is developed and tested on Ubuntu 20.04
and Python 3.9
.
git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
pip install -e .
python -m unidic download
Docker Install
Build Docker
git clone https://github.com/myshell-ai/MeloTTS.git
cd MeloTTS
docker build -t melotts .
Run Docker
docker run -it -p 8888:8888 melotts
If your local machine has GPU
, then you can choose to run:
docker run --gpus all -it -p 8888:8888 melotts
Then open http://localhost:8888 in your browser to use the app.
Python API
from melo.api import TTS
# Speed is adjustable
speed = 1.0
device = 'cpu' # or cuda:0
text = "我最近在学习machine learning,希望能够在未来的artificial intelligence领域有所建树。"
model = TTS(language='ZH', device=device)
speaker_ids = model.hps.data.spk2id
output_path = 'zh.wav'
model.tts_to_file(text, speaker_ids['ZH'], output_path, speed=speed)