基于均方根（RMS）和过零率的语音/音乐判别器

原文链接

https://www.csd.uoc.gr/~tziritas/papers/07tmm01-panagiotakis-proof.pdf

摘要

在过去的几年，我们对开发提取音视频媒体中信息的方法做出了很多重大努力，以便于在数据库中自动存储和检索这些信息。在这项工作中，我们处理音频的特征，这可能用于更大的音视频系统的一部分或者作为独立的系统，例如将音频记以数字信号形式存储在磁盘。我们的目标是先开发一个系统用于对单独的音频分段，然后将其分为两个主要分类之一：语音或者音乐。系统要求包括处理速度以及在实时环境中以尽量小延迟去执行操作。因为限制了两个类，需要提取的特征更少了，而且需要的计算都是直接计算。实验结果表明，在不牺牲性能的情况下，效率非常好。

分段基于平均信号幅度分布，而分类则利用与频率相关的附加特征。分类算法可以与分段算法结合使用，在这种情况下，它可以验证或否定音乐-语音或语音-音乐的转换，或者对于给定的音频片段独立地使用。基本特征是在20毫秒的时间间隔内计算的，从而可以将分段的边界精确到20毫秒的准确度。最小的分段长度为一秒。分割和分类算法在一个大型数据集上进行了基准测试，正确分割的准确率约为97%，正确分类的准确率约为95%。

关键词：音频分段、语音/音乐分类、过零率

介绍

问题定位

在许多应用中，对音频信号进行分割和分类具有很大的兴趣。首先，可以对音频信号进行内容特征化，将其分类为语音、音乐或静音之一。在层次上，这些主要类别可以进一步细分，例如按照不同的音乐流派或识别说话者进行分类。在本研究中，只考虑层次结构中的第一级。

过去已经提出和实施了各种用于音频分割和/或分类的系统，以满足不同应用的需求。在下面的段落中，我们介绍其中一些系统，以进行方法上的比较。

aunders [6]提出了一种使用能量轮廓和过零率（ZC）来区分语音和音乐的技术。该技术应用于广播电台，将其分成2.4秒的片段，然后使用从16毫秒间隔中提取的特征进行分类。使用过零率分布的四个偏度度量，可以达到90%的正确分类率。当添加了信号能量的概率度量时，报告了98%的性能。

Zhang和Kuo [14]提出了一种用于音频分割和分类的方法，可以分类音乐、语音、歌曲、环境声音和静音等。他们使用了能量函数、平均过零率、基频和谱峰跟踪等特征，并提出了一种基于启发式规则的方法。在音频分类中，他们实现了超过90%的准确率，在音频分割中实现了95%的准确率。

Scheirer和Slaney [7]使用了13个特征，其中八个是从功率谱密度中提取的，用于对音频片段进行分类。对于20毫秒的片段，报告了94.2%的正确分类率，对于2.4秒的片段，报告了98.6%的正确分类率。

Tzanetakis和Cook [10]提出了一个通用框架，用于集成、实验和评估不同的音频分割和分类技术。此外，他们提出了一种基于特征变化检测的分割方法。他们使用了基于能量和频谱的特征、过零率等。在大型数据集上的实验中，报告了约90%的分类器性能。在更近期的工作中，Tzanetakis和Cook [11]提出了一种基于整个文件和实时帧的分类方法，使用三个特征集（音色纹理、节奏内容和音高内容）。他们在十个音乐流派上实现了61%的准确率。这个结果被认为与人类音乐流派分类的结果相当。此外，他们的音乐/语音分类器的准确率为86%，男性/女性/体育播报分类器的准确率为74%。

在[12]中，介绍了一个用于基于内容的音频信号分类、搜索和检索的系统。声音分析使用信号能量、音高、中心频率、频谱带宽和谐波性。该系统主要应用于音频数据集。更一般的框架相关问题在[1]中进行了回顾。

在[4]和[8]中，使用倒谱系数对语音和音乐进行分类或分割。Moreno和Rifkin [4]使用高斯混合模型对这些数据进行建模，并训练支持向量机进行分类。在从互联网收集的173小时的音频信号集上，报告了81.8%的性能。在[8]中，也使用了高斯混合模型，但分割是通过似然比获得的。对于非常短的（26毫秒）片段，报告了80%的正确分类率。

关于上述技术的一般观点是，通常使用大量特征来区分一定数量的音频类别。此外，分类测试通常是基于启发式的，而不是从数据分析中得出的。在我们的工作中，我们首先尝试限制特征的数量，因为我们将任务限制为音乐/语音区分。我们得出结论，一个可靠的分类系统可以通过使用较少的特征和基于数据分析的方法来实现。

信号描述及其特征

假设信号是单声道的。对于多声道音频信号，在多个声道上每个样本的平均值被作为输入。这种方法可能在特殊效果影响立体声通道之间的差异时失败。对于采样频率没有限制，系统可以在11,025 Hz到44,100 Hz的范围内正常工作，而音量可能会在不同录音之间有所不同。该系统被设计成不依赖于采样频率和音量的要求，仅依赖于音频内容。音量的变化被识别出来（第二节），但如果变化前后的片段属于同一类别，则会忽略该变化（第三节-B）。

使用两个信号特征：振幅，通过均方根（RMS）测量，和平均频率，通过零交叉率的平均密度测量。每20毫秒获取一次每个特征的测量值。为了简化计算，考虑到的时间间隔内所有样本的平均值被省略，而不进行任何数据减少。因此，信号振幅（RMS）和零交叉率（ZCs）定义如下：

$RMS \triangleq \sqrt{\frac{1}{N}\sum_{n=1}^{N}x_n^2}$ $ZCs \triangleq \frac{1}{2T}\sum_{i=1}^{N-1}|sgn(x_i) - sgn(x_{i+1})|$ $\sin (a) = \left\{ \begin{array}{ll} 1 & \text{, } a < 0 \\ 2 & \text{, } a = 0 \\ 3 & \text{, } a > 0 \\ \end{array} \right.$

在这里，声音和音乐通过振幅值的分布来区分。图1和图2显示了根据上述描述测量的RMS以及音乐信号和语音信号的相应直方图。这些分布是不同的，这个事实可以用于分割和分类。平均频率通过20毫秒间隔内的零交叉率来近似。图3和图4显示了音乐信号和语音信号的过零率以及相应的直方图。
我们在工作中使用的两个特征几乎是独立的。我们测试了两种独立性度量来验证这个假设。第一种是Blomquist度量[3]，定义为

$V=\frac{|n1-n2|}{n}$

这里是数据对的数量，是与两个变量的中位数相关的具有相同符号的对的数量，是具有相反符号的对的数量。我们得到的经验值约为0.1，表明几乎是独立的。我们还使用了互信息与两个变量的熵之和的比值。