语音能力
VAD 与高级语音
语音活动检测、声音克隆与声纹识别。
VAD 语音活动检测
vad 包检测音频流中的人声区间,用于节省 ASR 成本和控制对话轮次。
import "github.com/LingByte/lingllm/vad"
factory := vad.NewDefaultFactory(logger)
detector := factory.CreateDetector(vad.DetectorConfig{
Vendor: "volcengine",
// ...
})
detector.Process(audioFrame) // 返回是否检测到人声| 供应商标识 | 说明 |
|---|---|
volcengine | 火山引擎 VAD |
xunfei | 讯飞 VAD |
在 protocol/voice 会话中,VAD 在原始麦克风 PCM 上运行(回声抑制之前),确保打断(barge-in)检测正常工作。
声音克隆(voiceclone)
import "github.com/LingByte/lingllm/voiceclone"
factory := voiceclone.NewFactory()
cloner := factory.CreateCloner(voiceclone.Config{
Vendor: "volcengine",
// ...
})
// 用参考音频克隆音色
voiceID, err := cloner.Clone(ctx, referenceAudio, name)| 供应商标识 | 说明 |
|---|---|
volcengine | 火山引擎声音克隆 |
xunfei | 讯飞声音克隆 |
示例:examples/voiceclone-volcengine-demo、examples/voiceclone-xunfei-demo
声纹识别(voiceprint)
import "github.com/LingByte/lingllm/voiceprint"
service, _ := voiceprint.NewService(config, cache)
// 注册声纹
service.Enroll(ctx, userID, audioSamples)
// 识别说话人
result, _ := service.Identify(ctx, audioSample)
fmt.Printf("说话人: %s, 置信度: %.2f\n", result.UserID, result.Confidence)| 能力 | 说明 |
|---|---|
Enroll | 注册用户声纹 |
Identify | 从音频样本识别说话人 |
Verify | 验证是否为指定用户 |
在语音会话中的位置
100%
相关地址
此页面对您有帮助吗?