VOICE · 实时语音 Agent

中文实时语音助手,跑在生产里。

基于 Aliyun ASR + Qwen + CosyVoice TTS 的 STT → LLM → TTS 全链路 600 ms 级 TTFA,支持打断与多轮上下文。已在 3 个 vertical 场景部署。

LIVE DEMO

直接在浏览器里跟它对话。

三个 vertical 都是可点击试听 — 餐厅、美发、诊所。真实管线,不是 mock。

进入语音 Demo
~ 600 ms TTFA (Time To First Audio)
< 200 ms Barge-in 打断响应
zh · yue · en 支持语种
99.5%+ 生产环境识别准确率
DEPLOYED SCENARIOS · 3

同一套底座,三个生产场景。

每个场景都是从 0 到生产 4-6 周。给我们一个新场景 + 客户语料,我们的 FDE 团队复制同样的节奏。

TECHNICAL STACK

底层是什么。

STT
Aliyun Paraformer (实时识别)中文 + 粤语 + 英文混合
LLM
Qwen-Max (默认)可切换 GPT / Claude / 国产模型场景 prompt 库 + tool calling
TTS
Aliyun CosyVoice可选音色 · 情感渲染
TRANSPORT
LiveKit Cloud AgentWebRTC + SSE 边缘 token
YOUR SCENARIO

想要这套管线跑你自己的业务?

常见适配场景:客服热线 · 销售拓展呼出 · 售后回访 · 行业咨询服务热线。FDE 团队 4–6 周交付一个新 vertical。