语音能力
实时对话代理
全双工实时对话:阿里云 Omni、火山引擎对话。
realtime 包提供全双工实时对话代理,将 ASR、LLM、TTS 串联为低延迟语音交互。
创建代理
import "github.com/LingByte/lingllm/realtime"
agent, err := realtime.NewAgentFromCredential(cfg, realtime.AgentOptions{
// ASR / TTS / LLM 供应商配置
})
if err != nil {
panic(err)
}
agent.Start(ctx)
agent.SendAudio(audioData) // 持续送入音频
// 通过回调接收合成音频和转写文本
agent.Stop()支持的代理类型
| 类型 | 包路径 | 说明 |
|---|---|---|
| 阿里云 Omni | realtime/aliyunomni | 阿里云全模态实时对话 |
| 火山引擎对话 | realtime/volcdialogue | 火山引擎实时语音对话 |
交互流程
100%
与 protocol/voice 的区别
| 层级 | 包 | 说明 |
|---|---|---|
| 供应商代理 | realtime | 封装特定云厂商的全双工 API |
| 会话协议 | protocol/voice | 传输无关的通用会话层,自行组装 ASR/TTS/LLM |
简单场景用 realtime 快速接入;需要自定义对话逻辑和传输层时用 protocol/voice。
相关地址
| 类型 | 地址 |
|---|---|
| 源码 | github.com/LingByte/lingllm/tree/main/realtime |
| Go 文档 | pkg.go.dev/github.com/LingByte/lingllm/realtime |
| 阿里云 Omni | realtime/aliyunomni |
| 火山对话 | realtime/volcdialogue |
| 站内文档 | 语音会话协议 |
此页面对您有帮助吗?