论文笔记 — Depression State Assessment: Application for detection of depression by speech 抑郁状态评估:应用言语检测抑郁
论文题目:Depression State Assessment: Application for detection of depression by speech
论文作者:Gábor Kiss, Dávid Sztahó, Klára Vicsi
摘要
我们提出了一种基于语音特征提取引擎的语音抑郁检测应用。 应用程序的输入是一个读语音样本,输出是预测抑郁严重程度水平(Beck Depression Inventory 【贝克抑郁量表】)。应用程序对语音样本进行分析,并使用支持向量回归(SVR)对其进行评估)。如果没有专家在场协助诊断,开发的系统可以协助一般医务人员。如果有人怀疑说话人患有抑郁症,就不可避免地要寻求特殊的医疗帮助。
介绍
抑郁状态影响人类的言语,如言语动力学、言语清晰度和言语表达。因此,语音作为抑郁症检测的生物标志物是一种很有前途的指标。提出了一种基于语音信号的自动预测系统,可以预测被试抑郁的严重程度。抑郁症是一种精神障碍。几个事件会造成一个人生活中的抑郁状态,就像紧张的事件,持续的悲伤,日常职责中的困难,缺乏阳光 与外界隔绝,等等[1]。抑郁发展后,抑郁者的生活质量和工作能力受到损害,自杀机率增加。居世界卫生组织统计,全球大约有3.5亿人患有抑郁。 世卫组织预测,到2030年,单极抑郁症将成为世界上最严重的三种疾病(艾滋病,心脏病,抑郁症)之一。
精确诊断只能由医学专家进行,但在某些情况下,这是不可行的。目前的应用,抑郁状态评估,就是为了这个目的而开发的,它能够使用基于语音处理的统计和机器学习回归方法来估计说话人的抑郁状态。 该应用程序不打算用作独立的临床诊断工具。 如果没有专家协助诊断,它可以帮助医务人员。 如果有怀疑的话 克尔患有抑郁症,寻求医疗援助是不可避免的。 该应用程序是使用参考抑郁言语数据库开发的,该数据库包含来自三种语言的健康和抑郁发言者的语音样本:150个德语[8],127个匈牙利语a 还有11位意大利发言者。
应用程序概述
该应用程序用于基于语音处理的抑郁检测。 应用程序的输入是一个读语音样本,输出是一个预测的BDI(贝克抑郁量表[7])评分,它代表说话者抑郁状态的严重程度。 对于BDI评分范围通常给出以下划分:0-13-最小抑郁(健康);14-19-轻度抑郁;20-28-中度抑郁;29-63-重度抑郁。
应用程序对语音样本进行分析,并使用支持向量回归(SVR)对其进行评估。评估是通过预先训练的SVR模型来完成的。
【注:模型细节可看 [4] Kiss, G., Sztahó, D., & Vicsi, K. (2013) Language independent automatic speech segmentation into phoneme-like units on the base of acoustic distinctive features. IEEE CogInfoCom 2013, 579-582
[5] Kiss, G., & Vicsi, K. (2017. Mono-and multi-lingual depression prediction based on speech processing. Int. J. of Speech Technology, 20(4), 919-935.】
要使用该应用程序,用户必须用他或她的母语阅读预定义的文本(这个文本故事叫做“北风和太阳”)。
输入语音样本被分割并标记成类似音素的单元。 每个声音文件的特征是一个特征向量,包含预先选择的音参数。自动预测器的输入是预训练模型(使用训练数据集获得)和归一化特征向量。 自动预测系统的输出是预测的BDI得分。
上图的流程描述如下:
- A/D:执行模拟数字转换和记录语音。
- Norm:将语音的振幅归一化为峰值。
- Segmenter:使用强制对齐算法将输入语音样本分割成类似音素的单元。
- Acoustic preprocessor:根据说话人的性别测量和计算声学和语音参数。 这些参数在统计上是精心选择的,与语言无关的参数。
- Feature vector generator:从对多种语言有效的声学和语音测量参数中生成相应的特征向量,并对其值进行归一化。
- SVR model:包含回归问题的统计知识的模型。它是基于参考压抑语音数据库的支持向量回归方法在训练阶段得到的,并作为决策单元的输入之一。
- Decision unit: 利用基于特征向量和SVR回归模型的支持向量回归方法预测BDI抑郁的严重程度。
- Testing the model: 在参考语音数据库上,用leave-one-out cross-validation “留一出”交叉验证方法对预先训练的模型进行了测试。 留一出交叉验证方法的本质是它总是 使用一个样本进行测试,其余样本进行训练,因此这两组是不相交的,每个样本都用于测试[结果评估指标MAE,RMSE]。
下图为用户界面:
总结
提出了一种基于语音特征提取引擎的语音抑制检测方法。 如果没有专家协助诊断,它可以帮助医务人员。 应用程序对语音样本进行分析,提取特定的语音特征,并利用支持向量回归(SVR)对其进行评价。预训练的模型和第一次用户体验的结果表明,该应用程序可以成为一个有前途的工具,为医疗或GPs。通过获取更多的音频样本,可以不断提高模型的性能。
总:本文提出了抑郁的医疗辅助系统,值得借鉴的是整个系统的过程,输入为受测者的一段语音,通过内部的语音特征提取和SVR评估模型对其进行评估,最后结合BDI得出对应的分数,得出其抑郁程度。他的用户交互界面的设计值得参考。