小编Luv_Luv的帖子

Yolo 或 Faster RCNN 中的锚框或边界框

我不知道锚框和边界框或提案区域之间的区别。我对这些定义感到困惑。而且我不知道检测模型中这些框的含义，因为默认长度永远不会改变！最后，我对 RCNN 系列和 Yolo 系列都输出预测框 location 的事实感到困惑(x,y,w,h)。或输出增量位置(ground truth_x - predicted_x)/prediction_w？

object-detection computer-vision yolo

9
推荐指数

1
解决办法

3104
查看次数

如何处理 CNN 中使用的音频频谱图的动态输入大小？

很多文章都在使用 CNN 来提取音频特征。输入数据是具有时间和频率两个维度的频谱图。

创建音频频谱图时，您需要指定两个维度的确切大小。但它们通常不是固定的。可以通过窗口大小来指定频率维度的大小，但是时域呢？音频样本的长度不同，但CNNs的输入数据的大小应该是固定的。

在我的数据集中，音频长度范围从 1s 到 8s。填充或切割总是对结果影响太大。

所以我想更多地了解这种方法。

speech-recognition signal-processing spectrogram conv-neural-network

7
推荐指数

1
解决办法

2163
查看次数

标签统计

computer-vision ×1

conv-neural-network ×1

object-detection ×1

signal-processing ×1

spectrogram ×1

speech-recognition ×1

yolo ×1