标签: source-separation

用神经网络分离音频信号源

我想要做的是分离音频源并从原始信号中提取音高.我自己模仿了这个过程,如下所示: 模型分解原始信号 每个源在正常模式下振荡,通常使其组件峰值的频率整数倍增.它被称为谐波.然后共振,最后线性组合.

如上所述,我对音频信号的频率响应模式有很多提示,但几乎不知道如何"分离"它.我尝试了无数自己的模特.这是其中之一:

  1. FFT PCM
  2. 获得峰值频率箱和振幅.
  3. 计算音调候选频率区间.
  4. 对于每个候选音高,使用递归神经网络分析所有峰值并找到适当的峰值组合.
  5. 分开分析的候选人.

不幸的是,我没有成功地将信号分离到现在.我想要任何建议来解决这类问题.特别是像我上面那样的源分离建模.

audio signal-processing machine-learning neural-network source-separation

10
推荐指数
1
解决办法
3496
查看次数

在这种情况下,熵意味着什么?

我正在阅读一个图像分割纸,其中使用范式"信号分离"来解决问题,即信号(在这种情况下,图像)由几个信号(图像中的对象)以及噪声组成的想法,任务是分离信号(分割图像).

算法的输出是一个矩阵, S\in R ^ {MxT}它表示将图像分割成M个分量.T是图像中的总像素数,S_ {} IJ 是像素j处的源分量(/ signal/object)i的值

在我正在阅读的论文中,作者希望选择一个组件m m\in [1,M] 它符合某些平滑度和熵标准.但我在这种情况下无法理解熵是什么.

熵定义如下:

H(s_m)=  - \sum_ {n = 1} ^ {256} p_n(s_m)\ cdot log_2(p_n(s_m)),m = 1,...,M

他们说'''{P_N(S_M)} _ {N = 1} ^ {256} 是与直方图的区间相关的概率 S_M""

目标成分是肿瘤,论文写着:"肿瘤相关成分 S_M "几乎"常数值预计具有最低的熵值."

但在这种情况下,低熵意味着什么呢?每个bin代表什么?具有低熵的矢量看起来像什么?

链接到纸张

image-processing entropy computer-vision image-segmentation source-separation

5
推荐指数
1
解决办法
1万
查看次数