特征提取步骤太长

Question

特征提取步骤太长

jes*_*ems 2 matlab signal-processing machine-learning octave amazon-web-services

我在Octave中整理了一个机器学习程序,如下所示:

功能从声音文件中提取
功能按比例缩放和标准化
SVM分类器经过训练
进行分类

我遇到的问题是步骤2,3和4需要几秒钟的时间才能完成整个数据库.但是,步骤1 每个文件大约需要1秒钟,这是过多的.

它花费这么长时间的原因是 - 在大多数情况下 - 因为我使用每个文件执行多个指数拟合leasqr.

由于每个类有大约1500个声音文件和3个或更多类,因此它开始累加.我想扩展到15,000个文件,并且目前的特征提取速度是不可行的.

我必须一遍又一遍地处理特征提取步骤的原因是因为我一直在使用它来调整我的分类器性能.例如,通过改变执行指数拟合的范围.

我的问题如下.我没有从外部运行繁琐流程的经验,但这是否可行？如果是这样,对于这样的情况,什么是好的/标准的做法？如果没有,那么什么是好的做法？

Answer 1

lej*_*lot 5

由于您的进程高度独立(从一个文件中提取特征并不以任何方式取决于其他文件的提取结果),处理此问题的最合理方法是并行化.您可以同时在许多线程/核心/处理器/计算机/集群上运行此过程,假设您可以访问足够的计算能力,从而使整个过程尽可能快.如果您是一名研究人员,您很有可能在大学/研究机构/公司获得一些计算集群.否则,您可以随时购买对此类资源的访问权限,例如在Amazon EC2上(但我确信您可以找到更便宜,更好的群集).

但看起来,更好的(在价格和结果方面)会让Octave落后,因为它非常慢并且使用像c ++这样的高效语言来执行预处理.如果这还不够(我非常肯定,它会加速至少一个数量级),那么考虑并行化.

一般来说,Matlab/Octave是分析工具,应该用于研究,而不是用于实际计算.一旦效率,就应该进行"实际编程"了.

另一种可能性可能只是选择的整体算法很差,需要重新考虑.虽然leasqr可能会达到最快速度,但也许所有这些指数拟合都不需要完成,或者其他算法,如分区(或可分离)非线性最小二乘可能是正确的.或者,许多指数拟合本身可能只是一个坏主意.我经常发现只需通过对算法的智能重新思考,就可以大量增加一段缓慢的代码. (3认同)

归档时间：	12 年，3 月前
查看次数：	217 次
最近记录：	12 年，3 月前