语音能力

VAD 与高级语音

语音活动检测、声音克隆与声纹识别。

MCP API

VAD 语音活动检测

vad 包检测音频流中的人声区间,用于节省 ASR 成本和控制对话轮次。

import "github.com/LingByte/lingllm/vad"

factory := vad.NewDefaultFactory(logger)
detector := factory.CreateDetector(vad.DetectorConfig{
    Vendor: "volcengine",
    // ...
})

detector.Process(audioFrame) // 返回是否检测到人声
供应商标识说明
volcengine火山引擎 VAD
xunfei讯飞 VAD

protocol/voice 会话中,VAD 在原始麦克风 PCM 上运行(回声抑制之前),确保打断(barge-in)检测正常工作。

声音克隆(voiceclone)

import "github.com/LingByte/lingllm/voiceclone"

factory := voiceclone.NewFactory()
cloner := factory.CreateCloner(voiceclone.Config{
    Vendor: "volcengine",
    // ...
})

// 用参考音频克隆音色
voiceID, err := cloner.Clone(ctx, referenceAudio, name)
供应商标识说明
volcengine火山引擎声音克隆
xunfei讯飞声音克隆

示例:examples/voiceclone-volcengine-demoexamples/voiceclone-xunfei-demo

声纹识别(voiceprint)

import "github.com/LingByte/lingllm/voiceprint"

service, _ := voiceprint.NewService(config, cache)

// 注册声纹
service.Enroll(ctx, userID, audioSamples)

// 识别说话人
result, _ := service.Identify(ctx, audioSample)
fmt.Printf("说话人: %s, 置信度: %.2f\n", result.UserID, result.Confidence)
能力说明
Enroll注册用户声纹
Identify从音频样本识别说话人
Verify验证是否为指定用户

在语音会话中的位置

100%

相关地址

此页面对您有帮助吗?

本页内容