数据集是否需要每个参数都是正态分布?

Isa*_*aki 5 machine-learning

抱歉,我刚刚开始机器学习,绝不是这方面的专家。所以,这个问题很可能听起来很无知,恐怕我无法避免。此外,我已尽我所能进行搜索,但无法找到可能解决我的问题的类似问题或答案。

我了解到,如果模型不是来自具有正态分布的数据集,则它无法学习。此外,我用来确定数据集是否呈正态分布的唯一方法是此处针对每个参数描述的图形方法。这可能是不可取的,如果是这样,我总是会发生变化,所以如果是这种情况,请纠正我。

回答我的问题,如果我看到某些参数的正态分布而不是其他一些参数的正态分布,这是否意味着数据集有缺陷?或者这是否意味着我不应该为模型使用这些参数?

提前致谢,如果我对这些概念的理解有任何基本错误,我深表歉意。

gin*_*nge 1

正如 cel 所说,每个模型都有自己的假设和局限性。虽然可能有一个模型只能学习完全正态分布的数据,但有很多模型则不能,例如支持向量机或随机森林。

在实践中,如果您知道您的数据不符合模型的假设,您可以考虑使用不同的模型或操纵数据以适应您的假设。您应该仔细考虑后一个选项,以确保您的操作不会使您的模型在现实场景中使用时变得无用。