Ran*_*son 5 machine-learning dataset
我使用了大量具有许多记录的数据集 - 通常在数百万条记录中.在我看来,并非所有这些记录对于构建有效的数据模型同样有用,例如,因为数据集中存在重复.如果将这些数据集简化为更好的记录集,则可以更轻松,更快速地进行分析.
有哪些预处理方法可以减少数据集大小(例如,删除记录)而不会丢失机器学习问题的信息?
我知道一个简单的转换是总结重复记录并相应地加权它们,但有什么比这更先进的吗?
小智 5
这确实是一个非常有趣的问题。首先,为数据集定义信息度量已经是一个挑战。一旦掌握了这些,您应该能够测量原始数据集和简化数据集之间的差异。
正如您所提到的,删除重复记录可能是一种选择,但如果重复记录不多,则无济于事。根据记录的分布,您可能只是随机选择一组,或者可能遵循分层方法(参见例如密度保留抽样)。
大幅减少记录数量的其他方法是原型选择,其中使用最近邻选择数据的代表性记录(有关学术论文,请参阅http://sci2s.ugr.es/pr )。