区分 tf-idf 文档相似度和朴素贝叶斯分类器

mad*_*ram 3 machine-learning

如何在 tf-idf 文档相似度和朴素贝叶斯分类器之间进行选择。我不明白该使用哪一种,有什么方法可以确定哪种算法适合什么用途?

Raf*_*ard 5

你不知道。

术语频率逆文档频率是一种为特征分配数值的方法。它(大部分)独立于对数据点进行分类的方法。

我假设相似性是指余弦相似性和最近邻分类。

如果您正在进行分类,您会选择最能提供最佳准确度(或最能满足您的要求)的方法。在存在非常大的数据集的情况下,计算数据集中每个文档的余弦相似度将变得令人望而却步。

如果您的意思是与排名结果的余弦相似度(找到类似于 Q 的文档),那么就没有“选择”。那是一个排序任务,朴素贝叶斯用于分类。

在现实生活中,这两种方法都不是特别好。您只会使用它们来初步了解一项任务可能有多难/容易,通过向它抛出愚蠢和简单的方法。如果一种“哑”方法的表现明显优于其他方法,您可以考虑尝试与最佳哑方法相关的更高级模型。