说话人确认系统性能评价指标

时间:2024-04-02 10:22:03

说话人确认系统性能评价指标

说话人确认(Speaker Verification)介绍

说话人确认属于说话人识别(Speaker recognition)中的一个子任务。根据任务目标不同,说话人识别可以分为说话人确认(Speaker Verification)和说话人辨认 (Speaker Identification) 两大类。说话人确认是判断某段语音是否为指定的说话人所说(Yes or No),是一对一的判别问题;而说话人确认则是对于众多候选说话人集合,给定一段语音,确定该段语音是候选人集合中的哪一个人所说,是多对一问题。对于说话人辨认来说,随着候选说话人集合不断扩大,任务复杂度增大,识别的性能会下降,而说话人确认技术则只需在给定阈值下判断 Yes 或者 No, 其性能并不受人数影响。

评价指标介绍

在评定说话人确认系统时,有两个非常重要的关键词:错误拒绝(False Rejection,FR)和错误接受 (False Acceptance, FA),这是说话人确认系统中的两种错误情况。错误拒绝指正确的说话人在测试中被断定为冒认者,被错误拒绝;错误接受则指冒认者在测试中被认为是正确的说话人,被错误接受。由于存在错误拒绝和错误接受两类错误,单纯地使用错误率来评定说话人确认系统性能是不合理的。通常有以下几种形式评定说话人确认系统的性能。

  • 等错误率(Equal Error Rate, EER):
    定义错误拒绝率 EFR和错误接受率 EFA :
    EFR=NfrNtargetE_{FR} =\dfrac{N_{fr}}{N_{target}}
    EFA=NfaNimpostorE_{FA} =\dfrac{N_{fa}}{N_{impostor}}
    Nfr 和 Nfa 分别指测试中错误拒绝和错误接受的次数,Ntarget和 Nimpostor分别指测试中总的真实测试次数和冒认测试次数。当系统中的阈值一定,EFR 与 EFA 便一定。
    当阈值降低时,会有更多的测试会被接受,此时 EFA 增大,EFR 减小;反之当阈值增大,测试会不容易通过,EFR 增大,EFA 减小。如图 1–3 所示错误率随着阈值的变化情况。EER 为 FR = FA 时的错误率:EER = EFR = EFA 。EER 是说话人确认系统中常用的性能评价指标。
    说话人确认系统性能评价指标

  • DET(Detection Error Trade-off) 曲线
    DET 曲线也是说话人确认中常用的评价方法,如图1–4所示,DET 曲线建立对数刻度下 EFA与EFR 的关系。曲线离原点越近,EFA 与 EFR 越小,系统性能越好。曲线与第一象限 45 线的交点即为 EER 点。曲线上的不同点对应不同的阈值。
    说话人确认系统性能评价指标

  • 最小检测代价(Minimum Detection Cost Function, minDCF):
    DCFNIST SRE 中定义且常用的一种性能评定方法。其定义为:
    DCF=CFREFRPtarget+CFAEFA(1Ptarget)DCF=C_{FR}*E_{FR}*P_{target}+C_{FA}*E_{FA}*(1-P_{target})
    其中 CFR和 CFA 分别代表错误拒绝和错误接受的惩罚代价,Ptarget和1 − Ptarget 分别为真实说话测试和冒认测试的先验概率。可以根据不同的应用环境来设定它们的值。比如在军事门禁系统中,我们希望严格控制出入人员,即希望错误接受的概率比较小,那么可以增大 CFA 的值;在监控犯罪人员的语音时,我们希望不漏掉可能的目标语音,则可以增大CFR 的值。当 CFR、CFA 、Ptarget 和 1 − Ptarget取定后,EFR 与 EFA 的某一组取值使得 DCF 最小,此时的 DCF 成为 minDCF
    在日常使用 DCF 时,通常以 NIST SRE 2008 设定的CFR = 10,CFA = 1,Ptarget= 0.01 为准。minDCF 不仅考虑了两类错误的不同代价,还考虑了两种测试情况的先验概率,比 EER 更合理。