SMR*_*SMR 6 python encoding test-data machine-learning prediction
我正在研究一种自动化 ML(回归)算法,其流程为:用户上传数据 -- 数据清理 -- 编码(目标编码器) -- 拟合模型 -- 结果。
到目前为止我完全没问题,我的困惑是当用户想要在没有目标变量的看不见的数据中测试它时,然后我需要再次执行数据清理 -我在拟合模型时使用的编码和编码技术只能工作如果存在目标变量(看不见的数据不会有目标变量),并且我无法更改看不见的数据的编码技术,因为测试数据需要经历与根据我的知识拟合模型时使用的数据相同的过程。
有人可以帮助我找到解决这个问题的方法吗?或者任何建议都会有很大帮助。
提前致谢。
小智 -1
您上面概述的是培训管道。在测试(推理)场景中,管道将稍作修改。数据上传和数据清理的执行方式应与训练场景中相同,但正如您所承认的,不需要(甚至不可能)执行目标编码,因为目标是我们在测试期间尝试使用模型预测的目标。在这种情况下,不执行编码,并且模型用于基于清理后的数据来预测目标。
简而言之,训练/测试的模型管道应该几乎相同,除了在测试场景中不执行目标编码之外,最后一步将是训练场景中的拟合和测试场景中的预测。