因此,想象一下能够获得足够质量的足够数据(数百万个用于训练和测试的数据点).请暂时忽略概念漂移并假设数据是静态的,并且不会随时间变化.在模型质量方面使用所有数据是否有意义?
Brain和Webb(http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf)包含了一些试验不同数据集大小的结果.在经过16,000或32,000个数据点训练后,他们测试的算法会收敛到稳定.但是,由于我们生活在大数据世界,我们可以访问数百万个数据集,所以这篇论文有点相关,但已经过时了.
是否有任何关于数据集大小对学习算法(朴素贝叶斯,决策树,SVM,神经网络等)影响的最新研究.
我为什么这么问?想象一下,存储有限的系统和大量独特的模型(数以千计的模型都有自己独特的数据集),无法增加存储空间.因此,限制数据集的大小非常重要.
对此有何想法或研究?
鉴于我在Java中有两个数组,A并且B我想要按元素添加元素,这会产生一个sum数组.使用循环隐式执行此操作很容易,但我想知道是否有更优雅的解决方案,可能使用guava集合或构建java utils.或者也许是一种python-ish方式,通过列表推导很容易.
例:
A = [2,6,1,4]
B = [2,1,4,4]
sum = [4,7,5,8]
Run Code Online (Sandbox Code Playgroud)