首页 /研究 /SpeakerLLM：面向说话者理解与验证推理的说话者专用音频大语言模型

PERCEPTION

SpeakerLLM：面向说话者理解与验证推理的说话者专用音频大语言模型

KiHyun Nam, Jungwoo Heo, Siu Bae, Ha-Jin Yu, Joon Son Chung

发表年份: 2026
访问权限: 开放获取

摘要

本文提出SpeakerLLM框架，将说话者特征提取、录音条件理解、说话者比较与验证推理统一到自然语言界面中。该模型通过结构化证据追踪和决策组合策略，实现了超越传统二元标签的细粒度说话者分析与可解释验证。

关键词

speaker verificationaudio-LLMnatural language interfacespeaker profilingreasoning

相关论文

PERCEPTION

📊 22,245 引用

Artificial intelligence: a modern approach

1995

PERCEPTION

📊 14,348 引用

Are we ready for autonomous driving? The KITTI vision benchmark suite

Andreas Geiger, P Lenz, R. Urtasun

2012

PERCEPTION

开放获取📊 9,777 引用

TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems

Martı́n Abadi, Ashish Agarwal, Paul Barham 等 20 位作者

2016

📄 PDF 详情 →

PERCEPTION

📊 9,681 引用

Vision meets robotics: The KITTI dataset

Andreas Geiger, Philip Lenz, Christoph Stiller 等 4 位作者

2013

查看 PERCEPTION 分类全部论文