使用不准确(不正确)的数据集

Question

使用不准确(不正确)的数据集

1 machine-learning data-quality

这是我的问题描述:

"根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭.但是,我们知道这些收集的数据由于许多错误陈述而不可靠.尽管有这些错误陈述,我们有数据集中的一些特征肯定是可靠的.但这些特征只是每个家庭财富信息的一小部分."

不可靠的数据意味着家庭对政府撒谎.这些家庭错误地收入和财富,以不公平地获得更多的政府服务.因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式.

现在,我有以下问题:

我们应该如何处理数据科学中不可靠的数据？
有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确？ - 我们如何评估本研究中的错误？由于我们有未标记的数据集,我应该寻找标签技术吗？或者,我应该使用无监督的方法吗？或者,我应该使用半监督学习方法吗？
机器学习中有任何想法或应用试图提高收集数据的质量吗？

请介绍一下可以帮助我解决这个问题的任何想法或参考资料.

提前致谢.

Answer 1

Mak*_*ich 5

问:我们应该如何处理数据科学中不可靠的数据

答:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们 - 糟糕的功能可能会显着降低模型的质量

问:有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确？

答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄明白.你能描述一下'不可靠'的含义吗？如果是,您可以,如我所提到的,您可以使用功能工程或编写将修复数据的代码.否则,没有ML算法将能够帮助您,而无需描述您想要实现的目标

问:机器学习中是否有任何想法或应用试图提高收集数据的质量？

答:我不这么认为只是因为问题本身太开放了.什么意思'数据的质量'？

一般来说,这里有几件事你可以考虑:

1)花时间在Google搜索功能工程指南上.它们涵盖了如何为您准备数据ML算法,优化它,修复它.具有良好功能的良好数据可显着提高结果.

2)您不需要使用原始数据中的所有功能.原始数据集的某些功能没有意义,您无需使用它们.尝试从数据集上的scikit-learn运行梯度增强机器或随机森林分类器来执行分类(或回归,如果进行回归).这些算法还评估原始数据集的每个特征的重要性.部分功能对于分类的重要性极低,因此您可能希望完全删除它们,或者尝试将不重要的功能组合在一起以产生更重要的功能.

归档时间：	10 年，8 月前
查看次数：	914 次
最近记录：	10 年，8 月前