文件名称:Resemblyzer:python软件包,用于分析和比较语音与深度学习
文件大小:101.4MB
文件格式:ZIP
更新时间:2024-05-23 05:17:53
Python
Resemblyzer允许您通过深度学习模型(称为语音编码器)来派生语音的高级表示形式。 给定语音音频文件,它将创建256个值的摘要矢量(嵌入,在此repo中通常简称为“嵌入”),该矢量概述了语音的特征。 注意:此存储库可存储100mb的音频数据,以供演示之用。 要单独获取,请运行pip install resemblyzer (需要python 3.5+)。 演示版 演讲者二元化: 识别谁在讲话,而每个演讲者只有几秒钟的参考音频: (点击图片观看视频) 假语音检测: 通过比较12种未知语音(6种真实语音,6种虚假语音)与地面真实参考音频的相似性,对虚假语音进行适度检测。 虚线以上的分数被预测为真实,因此该模型在这里犯了一个错误。 供参考,是获得高分的假冒视频。 可视化流形: 在2D空间中投影100个发声(每个10个扬声器中的10个)的嵌入。 来自同一说话者的话语形成一个紧密的簇。