小编use*_*890的帖子

数据集大小是否会影响机器学习算法?

因此,想象一下能够获得足够质量的足够数据(数百万个用于训练和测试的数据点).请暂时忽略概念漂移并假设数据是静态的,并且不会随时间变化.在模型质量方面使用所有数据是否有意义?

Brain和Webb(http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf)包含了一些试验不同数据集大小的结果.在经过16,000或32,000个数据点训练后,他们测试的算法会收敛到稳定.但是,由于我们生活在大数据世界,我们可以访问数百万个数据集,所以这篇论文有点相关,但已经过时了.

是否有任何关于数据集大小对学习算法(朴素贝叶斯,决策树,SVM,神经网络等)影响的最新研究.

  1. 学习算法何时收敛到某个稳定模型,而更多数据不再提高质量?
  2. 它可以在50,000个数据点之后发生,或者可能在200,000之后或仅在1,000,000之后发生?
  3. 有经验法则吗?
  4. 或者也许算法无法收敛到稳定模型,达到某种均衡?

我为什么这么问?想象一下,存储有限的系统和大量独特的模型(数以千计的模型都有自己独特的数据集),无法增加存储空间.因此,限制数据集的大小非常重要.

对此有何想法或研究?

algorithm machine-learning dataset svm bigdata

13
推荐指数
1
解决办法
4751
查看次数

Java元素和2个数组

鉴于我在Java中有两个数组,A并且B我想要按元素添加元素,这会产生一个sum数组.使用循环隐式执行此操作很容易,但我想知道是否有更优雅的解决方案,可能使用guava集合或构建java utils.或者也许是一种python-ish方式,通过列表推导很容易.

例:

A   = [2,6,1,4]
B   = [2,1,4,4]
sum = [4,7,5,8]
Run Code Online (Sandbox Code Playgroud)

java arrays elements addition

9
推荐指数
1
解决办法
6389
查看次数