小编use*_*263的帖子

大规模机器学习

我需要在一个大数据集(10-100亿条记录)上运行各种机器学习技术.问题主要是文本挖掘/信息提取,包括各种内核技术但不限于它们(我们使用一些贝叶斯方法,自举,渐变提升,回归树 - 许多不同的问题和解决方法)

什么是最好的实施?我在ML方面经验丰富,但是对于大型数据集没有多少经验.是否有任何可扩展和可定制的机器学习库利用MapReduce基础设施强烈偏好c ++,但Java和python是可以的亚马逊Azure或自己的数据中心(我们可以买得起)?

c++ java mapreduce machine-learning text-mining

26
推荐指数
2
解决办法
2908
查看次数

标签 统计

c++ ×1

java ×1

machine-learning ×1

mapreduce ×1

text-mining ×1