各种机器学习(ML)库/工具的比较

pja*_*ain 7 statistics machine-learning data-mining

从最近几天开始,我正在寻找一些优秀的机器学习(ML)库,令我惊讶的是我发现了很多.最初,我只对拥有C/C++支持的库感兴趣,但后来我扩展了我的愿望清单,包括任何可以具有良好功能集的良好库,并且可以在较长时间内提供良好的数据挖掘(可能有点困难)最初学习,但应该有可以使其值得学习的东西).

为此,我想评估这些参数上所有可用的好ML库:

  1. 它支持各种数据挖掘算法和功能

  2. 社区支持(如果有更多用户,我们肯定会在工作时获得更多帮助)

  3. 它是多么稳定

  4. 大数据集的效率

  5. 易于学习/易于使用/易于操作

  6. 它支持的语言(C,C++,Java,P ython)

  7. 开源/封闭源

我请求你们所有人请你们提出你的建议(谁曾经或曾经与任何图书馆合作过),这样我们就可以对任何类似的问题进行全面的讨论.

tdc*_*tdc 7

而不是推荐一个特定的工具箱,你可以看到的一个地方是机器学习开源软件页面.在这里你可以:

排序方式

  • 最后更新
  • 发布日期
  • 项目名称
  • 评分
  • 观看次数
  • 下载次数

过滤

  • 作者
  • 提交
  • 标签
  • 执照
  • 编程语言
  • 操作系统
  • 数据格式
  • 在JMLR中发布

这应该能够回答你的问题1),2)和6),并且7)默认是肯定的(虽然可能有不同风格的开源许可证).

问题3),4)和5)比较棘手.对mloss有一个评级方案,但它没有按照这些标准(稳定性,效率,易用性)进行细分.在某些时候,您将不得不执行一些自己的实验 - 从易用性的角度来看,这肯定会有所帮助.为了提高效率,在某些情况下,工具箱将由期刊文章备份,在这种情况下,他们已通过严格的同行评审流程,因此,如果您可以找到相关的期刊文章,我希望有一个讨论(尽管可能不完整)公正!)关于效率.最后稳定性,我想你必须对社区有一些信任,即评级最高,下载次数最多的工具箱也是最稳定的,尽管你可能只能通过自己的实验发现这一点.

其他信息来源是讨论论坛和一般在线资源,您可以尝试以下其中一项: