分享嘉宾 | 李蓝天
文稿整理 | William
嘉宾介绍
引言
近年来,声纹识别技术发展迅猛,在一些基准评测中取得了令人鼓舞的性能。然而,基于这些主流技术所搭建的声纹识别系统在实际应用中的表现却难言可靠。从应用方的反馈来看,声纹识别系统在许多应用场景下的鲁棒性并不理想。这种基准评测和应用表现的不一致性问题,极大地困扰了声纹识别的研究者和从业者,也限制了声纹识别技术的大规模推广应用。
为了理解和解释这种不一致性问题,本报告将从声纹评测的视角出发,在评测数据(Data)、测试列表(Trial)和评价指标(Metric)三个维度上进行分析,并尝试给出一些可靠的解决方案。
图1 声纹识别评测的三要素
评测数据篇 — CN-Celeb [1][2]首先是测试数据(Data)。当前主流基准评测的数据大都是在限定条件下采集得到的。例如,被采集者会预先知晓数据采集的基本要求(时间、地点、设备、文本等),显然这样采集到的数据无法描述真实应用场景中的复杂变动性。这种复杂变动性通常包括说话人的内在变动性(例如,说话方式、语速、时变、身体状态等)和外在变动性(例如,录音设备、周围环境、背景噪声、传输信道等)。换言之,这些测试数据无法评测出声纹识别系统在实际应用场景下的真实性能,从而引发了基准评测和实际表现的性能不一致性。
那么如何得到能够描述复杂变动性的数据呢?为了实现这一目标,我们聚焦在多场景声纹识别研究。多场景是当前声纹识别所面临最具挑战性的情形。在多场景情形中,其涵盖了几乎所有的复杂变动性。在多场景下取得优秀的识别性能是声纹识别技术走向实际应用的充要条件。不幸的是,当前还没有一个真正意义上的多场景声纹识别数据集,这将无法开展面向多场景声纹识别的研究。
为了解决多复杂场景数据空白的问题,我们构建了一个大规模多场景声纹识别数据集 CN-Celeb,用于多场景声纹识别训练和评测。整个数据集的采集流程分为两个阶段:在第一个阶段,利用自动化工具获取大量的明星音视频片段;在第二个阶段,通过人工质检,删除标签错误的片段,确保数据标注的准确性。整个采集流程如下图2所示。
图2 CN-Celeb 采集流程图
最终,我们采集了来自互联网公开可下载的3,000位中国明星的音频数据,覆盖了包括访谈、演讲、唱歌、影视、文娱等11类真实场景。
图3 CN-Celeb 数据分布图
进一步地,我们搭建了i-vector、x-vector基线系统以及更主流的x-vector系统,测试这些系统在VoxCeleb和CN-Celeb上的性能表现,如下表1所示。实验表明,这些系统在场景单一的VoxCeleb上取得了令人满意的性能表现,然而在CN-Celeb上的性能相当糟糕。
表1 VoxCeleb和CN-Celeb在不同声纹识别系统上的性能对比
综上,测试数据的场景受限问题是造成当前声纹评测与实际性能不一致的关键因素之一。为了更好地评测声纹识别系统在实际场景下的真实性能,我们发布了多场景声纹数据集 CN-Celeb。实验表明,当前主流的声纹识别系统在复杂场景下的表现并不如意,也证明了多场景声纹识别任务的挑战性。
测试列表篇 — Hard Trials [3]
测试列表用于衡量声纹识别模型和系统的性能,其作用就像一个探测器。显然,如果探测器设计的不好,性能评价就不能可靠。然而,测试列表的重要性尚未得到广泛重视,而简单的交叉配对(cross-pairing)方法仍然是当前测试列表设计中最受欢迎的方法。
经过理论经验分析和仿真实验验证,我们发现基于这种交叉配对方法所生成的测试列表中存在大量的简单测试列表,即系统可以非常容易的对这些列表做出正确的判决。显然,这些列表对系统评测来说毫无意义,由其所得到的性能表现也过于理想,引发了基准评测和实际应用的不一致性。
为了解决这一问题,我们认为应该对测试列表进行有效选择:滤除简单测试列表、聚焦困难测试列表(下图4灰色区域),避免测试列表存在的偏差,得到系统的真实性能。
图4 测试列表的分数分布图(红色点代表闯入测试的分数分布,绿色星代表自识别测试的分数分布;灰色区域代表困难测试列表的分数分布)
那么如何挖掘可靠的困难测试列表呢?根据支持向量机(SVM)的边界理论,我们训练出一个正样本(自识别测试列表)和负样本(闯入测试列表)的二分类SVM模型,将位于边界面之上以及边界面之外的测试列表视为困难测试列表(Hard trials)。
图5 SVM 的边界理论
具体地,我们首先构造若干个基线系统。然后对于每个测试列表,计算其在每个系统上的判决分数,并拼接成一个分数向量。基于这些分数向量(分为自识别测试列表的分数向量和闯入测试列表的分数向量)训练SVM模型。模型训练完成后,模型中的支持向量(support vectors)即为困难测试列表。实验结果表明,在VoxCeleb和SITW测试列表中存在困难测试列表,如下表2所示。
表2 VoxCeleb和SITW中的原始测试列表与困难测试列表
进一步地,我们测试这些困难测试列表在主流声纹识别系统上的性能表现,如下表3所示。实验结果表明,主流声纹识别系统在这些困难测试列表上的表现不尽人意。这一方面验证了当前测试列表中存在大量的简单测试列表,致使取得的性能过于理想;另一方面表明声纹评测应该更加关注于困难测试列表,进而更好地体现出系统的真实性能。
表3 原始测试列表(Full trials)和困难测试列表(Hard trials)的性能对比
评价指标篇 — C-P Map [4]当前声纹识别系统的评价指标通常仅是针对于某一个测试列表集,因而无法实现对某个系统的综合评价,也无法实现对两个系统的全面对比。
举例来说,给定一组注册/测试语音,测试配置定义为一个测试列表的子集,用于目标系统性能评测。全交叉配对是最大的测试配置,其对应的测试列表中涵盖了所有的测试列表。如下图6所示,A代表所有的测试列表,B表示A中的一个子集。
图6 测试配置示意图(A是最大的测试配置,B是A的一个子集)
显然,对于一个特定的声纹识别系统,不同测试配置的性能是不同的,这反映了目标系统在不同部署情况下的性能。通过收集所有测试配置及其相应的性能,我们可以更全面地评价目标系统的能力。
这个想法可通过一个配置-性能分布图 (config-performance map, C-P map) 来实现。在该分布图中,x轴对应于正测试列表的子集,y轴对应于负测试列表的子集。因此,图中的每个位置 (x,y)对应于一个特定的测试配置。令(x,y)处的颜色代表性能度量,我们就得到了最终的配置-性能图。进一步地,为了使配置-性能图具有空间结构属性,我们对正负测试列表的子集进行限定:对于正例测试列表(x 轴),我们从左到右逐渐选择得分较高的测试列表,而对于负例测试列表(y 轴),我们从下到上逐渐选择分数较低的测试列表。
下图7给出了一个基于i-vector系统的配置-性能图。由图可见,大量的高性能区域(右上)表明在全交叉配对的测试配置中存在大量的简单测试列表(代表了基线评测的性能),而靠近原点的低性能区域(左下)暗示系统性能并不完美(代表了实际应用的性能),解释了基准评测和实际应用的性能不一致性问题。
图7 基于i-vector系统的配置-性能图
如果测试配置的顺序是固定的,那么配置-性能图将会更有价值。例如,可以选择多个声纹识别基线系统来评估每个测试列表,并使用平均分数对测试列表进行排序,构建有序的测试配置。通过使用这些有序的测试配置来绘制各个系统的配置-性能图。进一步地,通过计算两个系统的配置-性能图的差值,得到配置-性能差值图(delta C-P map),便可全面地比较两个系统在不同测试配置下的性能表现。因此,配置-性能差值图是一个强大的评价工具,可用于确定技术的有效性,鉴定创新的真伪。图8呈现了不同声纹识别技术的配置-性能图和配置-性能差值图,构建了一幅路线图,总结了近年来声纹识别技术的发展。通过这个路线图,可以清楚地看到哪些技术是有效的,哪些创新是革命性的。这进一步表明,我们所提出的配置-性能图是一个非常有价值的技术分析和系统比较工具。
图8 基于配置-性能图的声纹识别技术路线图
总结本报告从当前声纹识别的基准评测与实际应用的性能不一致性问题出发,提出了可靠声纹识别评测的概念,从评测数据、测试列表和评价指标三个角度来解释和解决这一不一致问题。从评测数据的角度,我们构建了CN-Celeb多复杂场景声纹识别数据集,更好地描述实际应用场景中复杂变动性;从测试列表的角度,我们提倡关注于困难测试列表,提出了基于边界理论的挖掘方法;从评价指标的角度,我们设计了配置-性能图和配置-性能差值图,实现对系统更全面的性能评价。最后,我们呼吁整个声纹社区更多地关注于可靠声纹识别评测。
参考文献
[1] Y. Fan, J. Kang, L. Li, K. Li, H. Chen, S. Cheng, P. Zhang, Z. Zhou, Y. Cai, and D. Wang, "CN-Celeb: a challenging Chinese speaker recognition dataset," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7604–7608.
[2] L. Li, R. Liu, J. Kang, Y. Fan, H. Cui, Y. Cai, R. Vipperla, T. F. Zheng, and D. Wang, "CN-Celeb: multi-genre speaker recognition," Speech Communication, vol. 137, pp. 77–91, 2022.
[3] L. Li, D. Wang, and D. Wang, "Pay attention to hard trials," in 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). IEEE, 2022, pp. 204–209.
[4] L. Li, D. Wang, W. Du, and D. Wang, "C-P map: A novel evaluation toolkit for speaker verification," arXiv preprint arXiv:2203.02942, 2022.