文件名称:Speaker-recognition:使用ML和DSP根据说话人的过渡来分割语音序列
文件大小:69.27MB
文件格式:ZIP
更新时间:2024-05-17 16:53:06
JavaScript
说话人识别 项目报告 抽象的 扬声器序列分段是许多音频处理应用程序中的第一步,旨在解决“何时说话”的问题。 因此,它依赖于从提取的音频特征中有效利用时间信息。 在本项目中,我们利用语音信号的线性预测系数及其派生功能来分割单个扬声器的语音。 我们采用有监督和无监督的学习方法来解决该问题。 介绍 问题简介 该项目的目的是基于说话者的过渡来分割语音序列,其中说话者的数量事先未知。 动机 智能设备的数量呈指数增长,要处理的数据量也呈指数增长。 旨在利用来自音频数据的语义信息来组织多媒体内容的音频索引是音频处理的一类较广泛的问题。 语音序列分段旨在用相应的说话人身份标记音频/视频数据的分段。 除音频索引外,它在语音研究中也有重要应用,例如自动语音识别,丰富的转录等。 文献评论 一般的无监督分割问题涉及对参与多说话者对话的说话者的给定话语的分类。 问题的确切定义如下。 给定从多说话者对话中记录的语音信