1 machine-learning data-quality
这是我的问题描述:
"根据家庭收入和财富调查,我们需要找出收入和支出最多的前10%家庭.但是,我们知道这些收集的数据由于许多错误陈述而不可靠.尽管有这些错误陈述,我们有数据集中的一些特征肯定是可靠的.但这些特征只是每个家庭财富信息的一小部分."
不可靠的数据意味着家庭对政府撒谎.这些家庭错误地收入和财富,以不公平地获得更多的政府服务.因此,原始数据中的这些欺诈性陈述将导致不正确的结果和模式.
现在,我有以下问题:
请介绍一下可以帮助我解决这个问题的任何想法或参考资料.
提前致谢.
问:我们应该如何处理数据科学中不可靠的数据
答:使用特征工程来修复不可靠的数据(对不可靠的数据进行一些转换以使其可靠)或完全删除它们 - 糟糕的功能可能会显着降低模型的质量
问:有没有办法找出这些错误陈述,然后使用机器学习算法报告前10%的富人更准确?
答:ML算法不是魔术棒,除非你告诉他们你在寻找什么,否则他们无法弄明白.你能描述一下'不可靠'的含义吗?如果是,您可以,如我所提到的,您可以使用功能工程或编写将修复数据的代码.否则,没有ML算法将能够帮助您,而无需描述您想要实现的目标
问:机器学习中是否有任何想法或应用试图提高收集数据的质量?
答:我不这么认为只是因为问题本身太开放了.什么意思'数据的质量'?
一般来说,这里有几件事你可以考虑:
1)花时间在Google搜索功能工程指南上.它们涵盖了如何为您准备数据ML算法,优化它,修复它.具有良好功能的良好数据可显着提高结果.
2)您不需要使用原始数据中的所有功能.原始数据集的某些功能没有意义,您无需使用它们.尝试从数据集上的scikit-learn运行梯度增强机器或随机森林分类器来执行分类(或回归,如果进行回归).这些算法还评估原始数据集的每个特征的重要性.部分功能对于分类的重要性极低,因此您可能希望完全删除它们,或者尝试将不重要的功能组合在一起以产生更重要的功能.
| 归档时间: |
|
| 查看次数: |
914 次 |
| 最近记录: |