Sim*_*ely 7 python preprocessor artificial-intelligence machine-learning scikit-learn
我只是想要一些关于如何在将数据输入机器学习算法之前对其进行预处理的一般提示.我正在努力进一步理解为什么我们在预处理时做出不同的决定,如果有人可以通过我们在清理数据时需要考虑的所有不同的事情,删除多余的数据等等.我会发现它非常有用.我在网上搜索了一些规范的答案或经验法则,但似乎没有.
我在这里有.tsv文件中有一组数据.训练集总计7,000行,测试集为3,000行.如果100行不可读,我应该使用哪些不同的策略来处理格式错误的数据?500?1000?任何帮助我理解这一点的指导都将非常感激.
示例代码很好看,但如果您不喜欢它,则没有必要,我只想了解我应该做什么!:)
谢谢
Mar*_*rek 18
根据实际数据,有很多事情需要决定.它并不像在获取数据时总是命名几个步骤那么简单.
但是,我可以试着说出一些通常有用的东西.不过,第一个也是最重要的是彻底分析数据并尽力"理解它们".了解数据以及抓取和收集数据背后的所有背景是必不可少的部分.如果您了解数据或噪音的缺失,那么您可以知道如何处理它.
不过,我会尝试给你一些提示:
总结,一般来说真的很难回答.如何避免"使事情变得更糟"的好方法是从删除所有"坏的价值"开始.只需删除缺少值或错误值的所有行.如前所述转换所有其他值并尝试获取您的第一个结果.然后,您将更好地了解所有数据,您将更好地了解在哪里寻找任何改进.
如果您对特定的"预处理问题"有任何疑问,我将很乐意编辑此答案并添加更多想法如何处理它.
| 归档时间: |
|
| 查看次数: |
4727 次 |
| 最近记录: |