信号处理:有人能为我解释一下不同类型的频谱图吗?

Toa*_*Nhu 4 signal-processing audio-processing librosa

我是信号处理方面的新手,我在谷歌上搜索了许多频谱图术语,但我找不到任何关于频谱图类型差异的内容。谁能帮我解释一下下图中不同频谱图的定义和含义?谢谢!

频谱图

P/s:频谱图和色度之间的区别是什么?色度用于什么以及何时使用?

色度

min*_*ins 6

您要求澄清两个术语:频谱图和色度。

  • 频谱图是频谱的可视化,将声音分解为不同频率的纯正弦曲线。频谱图提供了不同频率的幅度如何随时间变化的视图。这可以显示在 2D 图(或者3D 图)上,其中 x 表示时间,y 表示频率,颜色表示声音中发现的任何频率分量的振幅:

    在此输入图像描述

    语音频谱图,来源

    在这些图中,轴可以是线性的或对数的,频率轴甚至可以是音符名称(有时称为音级)而不是实际频率,因为每个音符对应一个频率。在后一种情况下,该图更称为色谱图。有关音频分析中使用的绘图的详细信息,请参阅下面的进一步部分。

  • 倍频程是频率 f 到 2*f 的任何范围。每个八度可分为七个音程,使用 8 个音符。对于从C开始的八度:C、D、E、F、G、A、B、C。这些度数称为(C大调)全音阶这是我们在学校学过的音阶:

    在此输入图像描述

    音程以音符频率的比率来衡量。五个音程具有相同的值,即一个,另外两个,EF 和 BC,只是该值的一半,即半音。这种划分存在于所有八度音阶中,因为频率减半的加倍不会改变比率。在钢琴键盘上,这些音符是白键。

    在此输入图像描述

    还有另一种音阶,它将八度音阶分成12个相等的音程,使用13个音符。这个音阶就是半音音阶色度只是指这些音符:

    在此输入图像描述

    组成半音音阶的音符是前一个音阶的音符加上将所有全音音程分成半音的两个相等音程的音符。在键盘上,这些音符是黑键。

    除极少数情况外,音乐不是使用半音阶(全半音)创作的。相反,通过选择起始音符和要使用的音程方案,从半音音符池中构建比半音更全音的全音阶。目前使用两种间隔方案:主要间隔方案和次要间隔方案。有 12 个可能的起始音符,有24 个可能的全音阶

色度:一个小概念的大词

如上所示,色度色度分析色度功能听起来很重要,没有什么可担心的,色度是表示半音音阶的音符音高的炒作措辞,西方音乐中使用的普通音符集。

频谱图

频谱图是 3D 表示,x 轴是时间,y 轴是频率,z 轴通常是幅度或功率(功率通常是幅度的平方)。Z 值由网格点 (x,y) 处像素的颜色表示。

任何轴 x、y 或 z 都可以使用分贝对数化。对于功率标度,它对应于以下变换:dB = 10 log (P/P0),其中 P0 是参考值,除非另有说明,否则为 1。加倍为+3dB。由于功率比是振幅比的平方,因此振幅的分贝值为 dB(振幅)= 20 log (A/A0)。

下图显示了时间 x(未显示 x 刻度)的频率 y (Hz) 的功率(z 为灰度),以 dB 表示。

在此输入图像描述

将灰色阴影替换为颜色时也是如此:

在此输入图像描述

下一张图是相同的,只是 y 刻度是对数而不是线性,如果能量集中在刻度的开头(低频),则更有意义,例如在 1 kHz 下:

在此输入图像描述

下一张图是相同的。从标题来看,似乎显示的是功率而不是幅度,但视觉上没有色差:

在此输入图像描述

下图类似,但“constant Q”标题可能意味着功率值是使用常量 Q 变换 (CQT)计算的:

在此输入图像描述

CQT(而不是通常的离散傅里叶变换)可能是尝试从信号中更准确地提取音符。

下图中显示了相同的数据,但 y 用音符名称而不是频率进行标记:

在此输入图像描述

色谱图

色谱图是特定的光谱图,其中 y 轴和 z 值是特定的。

  • 音阶 y 仅包含半音阶的 12 个音符。

  • Z 值是每个音符对应的所有声音的总和,与八度无关,因此 C 是 C0(八度 0 中的 C)加上 C1(C0 频率的两倍)加上 C2(八度音阶频率的两倍)的总和。 C1)等。这些音符都是C0的泛音。

您可能想知道为什么对八度音阶进行求和,从而丢失了实际的频率信息。它特定于音乐声音,即由谐振设备产生的声音。当这种装置产生频率f的声音时,它还产生f的倍数的声音(2f、3f、4f处的谐波),其个体强度由其音乐音色强加。

此外,正如有关音乐音阶的介绍部分中所解释的,当创作一首音乐时,会选择一个音阶。无论使用哪个八度音阶,此选择都会冻结该乐曲所使用的 7 个音符。外来音符(临时记号)的单独使用使得它们在乐曲中出现的频率较低,因此在色谱图中出现的频率也较低。

色谱图:

在此输入图像描述

没有提及 z 轴所代表的内容,可能是相对于信号中找到的最大值(注释 E 附近)的幅度(或功率)。

最后一张图的不同之处在于 y 轴不显示信号音调,而是显示样本的节奏(每分钟节拍)。

温度图

在此输入图像描述

刻度是对数的。颜色表示检测到此 BPM 数量的频率。由于存在多个比某一时间短的音符,因此检测到多个 BPM 值。音符以高于实际 BPM 的频率重复。通常用于执行分析的算法还提供最可能的 BPM,采用起始分布(例如librosa)。