「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请
2024-11-17 09:40:0 Author: mp.weixin.qq.com(查看原文) 阅读量:3 收藏

给客服打电话总是遇到让人高血压的 AI ？

智能音箱对话时总是被错误识别？

AI 陪伴机器人总是感觉有点呆板？

语音交互体验

似乎成为了 AI 落地的一块绊脚石。

试试扣子智能语音 OpenAPI ，

将有望使这种情况成为过去式！

经过这近两年来的发展与验证，大语言模型（LLM）和智能体（Agent）已经逐渐成为行业共识，落地到了生活各处。

AI 虚拟陪伴、AI 口语陪练、AI NPC、AI 游戏陪玩等应用遍地开花，由此也激发了对更优质的 AI 语音交互的强烈需求。

现在，
扣子上线了全新的智能语音 OpenAPI，让 AI 从“能说话”到“会说话”！

首次将“理解”的能力注入语音交互链路，它不只是在听你说话，而是在理解你说话的场景、语境、甚至情绪。

让 AI 开始像人一样思考和表达。

当你与接入扣子智能语音API的智能体或是 AI 应用交谈时，

它不只是在应答，而是在理解、思考、然后用最恰当的方式回应！

实测演示👇

1. Demo 配置流程视频演示

2. 与智能体实时对话测试

3. 语音对话过程中，支持实时打断

4. 轻轻松松进行逼真的音色克隆

这一切的实现归功于以下四个优势：

精准的识别： 使用大模型的 ASR 进行语音转文本，具备上下文理解能力（比如上文出现过的名词能在识别中复用，说话风格和代称也有更好理解），并对噪声、垂直领域、中英混说等复杂场景识别效果提升；
强大的 AI Agent 能力： 不只是听懂你说什么，更是真正理解你的需求。它包含了 Agent 各项能力，能够像人一样有记忆力（文件盒子、数据库、变量）、有知识（文本、表格、照片）、有技能（插件、触发器）、还能编排（工作流、图像流）等；
低延迟、可打断： 使用火山引擎 RTC 方案，把链路中的延迟充分降低，并确保即使在弱网络环境下也能通话顺畅。此外，智能体能毫秒级响应用户打断，流畅切换话题并即时反馈，模拟人类自然交流。火山引擎RTC的AI降噪可有效过滤超过90%的背景噪音，减少误打断，提升对话准确度；
自然的语音效果： 使用大模型的 TTS 进行文本转语音，根据上下文，智能预测文本的情绪、语调等信息；生成超自然、高保真、个性化的语音，在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人；即使是中英文混说也能行云流水应答自如。

目前，扣子语音功能正在内测中，

扫描下方二维码或点击「阅读原文」，

即可申请成为扣子产品体验官！

从“能说话”到“会说话”，

扣子智能语音 OpenAPI ，

正在迈出 AI 应用的一大步。

🙋 扫码加入交流群

关注扣子Coze公众号，后台回复「语音」，获取更多细节！

合作&转载：[email protected]

点击 「阅读原文」，报名参与扣子语音功能内测!

文章来源: https://mp.weixin.qq.com/s?__biz=MzI1MzYzMjE0MQ==&mid=2247511386&idx=1&sn=7cc18c28156b42b144946325f89b186e&chksm=e9d366b8dea4efae4d9179178dd3e04ad88aabd01b9293626d4697b694f67b0b1320a0a37442&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh