首页 /研究 /SpeakerLLM:面向说话者理解与验证推理的说话者专用音频大语言模型
PERCEPTION开放获取

SpeakerLLM:面向说话者理解与验证推理的说话者专用音频大语言模型

KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung

2026

摘要

本文提出SpeakerLLM框架,将说话者特征提取、录音条件理解、说话者比较与验证推理统一到自然语言界面中。该模型通过结构化证据追踪和决策组合策略,实现了超越传统二元标签的细粒度说话者分析与可解释验证。

关键词

speaker verificationaudio-LLMnatural language interfacespeaker profilingreasoning

相关论文