我怎么知道训练数据足以进行机器学习

tid*_*idy 7 classification machine-learning sample-data

例如:如果我想训练分类器(可能是SVM),我需要收集多少样本?这有一种衡量方法吗?

jab*_*edo 9

要知道需要收集多少样品并不容易.但是您可以按照以下步骤操作:

为了解决典型的ML问题:

  1. 使用几个样本构建数据集a,有多少?这取决于你遇到的问题,现在不要花很多时间.
  2. 将数据集拆分为训练,交叉,测试和构建模型.
  3. 现在您已经构建了ML模型,您需要评估其有多好.计算您的测试错误
  4. 如果您的测试错误低于预期,请收集新数据并重复步骤1-3,直到达到您认为合适的测试错误率.

如果您的模型没有遭受"高偏差",这种方法将起作用.

来自Coursera的机器学习课程的视频解释了这一点.


Kao*_*Kao 5

不幸的是,没有简单的方法.

经验法则越大越好,但在实际使用中,您必须收集足够数量的数据.足够我的意思是覆盖你认为可以接受的模型空间的大部分.

此外,金额不是一切.测试样品的质量也非常重要,即训练样品不应包含重复样品.

就个人而言,当我一次没有所有可能的训练数据时,我会收集一些训练数据,然后训练分类器.那我的分类器质量是不可接受的,我收集更多数据等.

以下是关于估计训练集质量的一些科学知识.