超级强大的ChatTTS文本转语音模型

超级强大的ChatTTS文本转语音模型
2024-6-3 16:23:0 Author: blog.upx8.com(查看原文) 阅读量:3 收藏

主要功能:

ChatTTS的突出特点

多语言支持:ChatTTS不仅支持中文，还能够生成自然流畅的英文语音。中英文混合语音表现出色，几乎听不出AI生成的痕迹。

细粒度控制:ChatTTS允许用户控制笑声、说话间的停顿以及语气词，使生成的语音更加自然和生动。

多说话人支持:ChatTTS支持多说话人的语音合成，可以复刻各种声音，包括已故人物的经典声音。

大规模训练数据:最大的ChatTTS模型使用了超过 10 万小时的中英文数据进行训练，在HuggingFace开源的版本使用了 4 万小时的训练数据，但未经过监督微调（SFT）。

ChatTTS的应用场景

ChatTTS适用于各种需要高质量语音合成的场景，包括但不限于:

电商直播:为直播提供更加自然的语音配音，提高用户体验。

自媒体:帮助自媒体创作者生成生动的配音，吸引更多观众。

在线教育:为在线课程提供清晰自然的讲解声音，提升学习效果。

客服和售后服务:提供更人性化的语音服务，提高客户满意度。

在线使用

官网地址：https://chattts.com/

text:指的是需要转换成语音的文字内容。
Refine text:选择是否自动对输入的文本进行优化处理。
随机度:一个控制输出随机性的参数，数值越大，生成的语音随机性越高，这可能导致生成的语音质量有时更好，有时更差。
声音选择:默认值为2222，这是一个数字参数，用于选择声音的类型。可选的数字有2222、7869、6653、4099、5099，可以任选其一，或者输入其他数字以随机选择声音。
定制声音:这是一个正整数参数，用于定制声音的音调和音色。如果设置了此值，将优先使用，而忽略声音选择参数。
提示设置:用于添加笑声、停顿等效果。例如，可以设置为[oral_2][laugh_0][break_6]。

再次强调，该模型的优势在于它是开源的，允许使用个人的声音资料进行训练。

使用时，请遵守法律法规和道德规范。

另外还有人做了一个ChatTTS Web UI，自己可以部署 ChatTTS Web UI：https://github.com/jianchang512/ChatTTS-ui

文章来源: https://blog.upx8.com/4187
如有侵权请联系:admin#unsafe.sh