最好在进行任何探索性数据分析之前将数据分为训练集和测试集,还是仅根据训练数据进行所有探索?
我正在做我的第一个完整的机器学习项目(课程顶点项目的推荐系统),并且正在寻找操作顺序的说明。我的粗略概述是导入和清理,进行探索性分析,训练我的模型,然后在测试集上进行评估。
我现在正在进行探索性数据分析-最初没有什么特别的,仅从变量分布开始。但是我不确定:在探索性分析之前或之后,我应该将数据分为训练集和测试集吗?
我不想通过检查测试集来潜在地污染算法训练。但是,我也不想错过视觉趋势,因为视觉趋势可能反映了我的不良人眼在过滤后可能看不到的真实信号,因此潜在地错过了在设计算法时研究重要且相关的方向的机会。
我像这样检查了其他线程,但是发现的线程似乎在询问更多有关正则化或原始数据实际操作的问题。我发现的答案很复杂,但优先考虑的是拆分。但是,我不打算在拆分数据之前对数据进行任何实际的操作(除了检查分布并可能进行某些因子转换外)。
您在自己的工作中做什么工作,为什么?
感谢您帮助新程序员!
艾米