用于文档的朴素贝叶斯分类器中的长度归一化

Question

用于文档的朴素贝叶斯分类器中的长度归一化

pmc*_*255 5 classification machine-learning data-mining bayesian

我正在尝试实现一个朴素的贝叶斯分类器来对文档进行分类,这些文档基本上是特征集(而不是包),即每个特征包含一组独特的特征,每个特征在文档中最多只能出现一次.例如,您可以将这些功能视为文档的唯一关键字.

我一直密切关注着Rennie等人.人.http://www.aaai.org/Papers/ICML/2003/ICML03-081.pdf上的论文,但我遇到了一个似乎没有解决的问题.即,由于文档具有较少数量的特征,因此对短文档进行分类导致更高的后验概率; 反之亦然长文件.

这是因为后验概率被定义为(忽略分母):

P(class|document) = P(class) * P(document|class)

Run Code Online (Sandbox Code Playgroud)

扩展到

P(class|document) = P(class) * P(feature1|class) * ... * P(featureK|class)

Run Code Online (Sandbox Code Playgroud)

由此可见,具有较少特征的短文档将具有较高的后验概率,仅仅因为较少的术语可以相乘.

例如,假设功能"foo","bar"和"baz"都出现在积极的训练观察中.然后,具有单个特征"foo"的文档将具有比具有特征{"foo","bar","baz"}的文档更高的被归类为正类的后验概率.这看似违反直觉,但我不太清楚如何解决这个问题.

是否可以进行某种长度标准化？一个想法是将文档的大小添加为一个特征,但这似乎不太正确,因为结果将随着训练数据中文档的大小而变化.

Answer 1

Jun*_*ier 4

这是一个很好的问题; 现在我还不能完全确定这里有问题。后验概率只是给出给定文档的每个类别的概率（即每个文档类别的概率）。因此，在对文档进行分类时，您仅比较给定相同文档的后验，因此特征数量不会改变（因为您不会跨文档），即：

P(class1|document) = P(class1) * P(feature1|class1) * ... * P(featureK|class1)
...
P(classN|document) = P(classN) * P(feature1|classN) * ... * P(featureK|classN)

Run Code Online (Sandbox Code Playgroud)

具有最高后验的类将被称为文档的标签。因此，由于功能的数量似乎取决于文档而不是类，因此不需要标准化。

我错过了什么吗？如果您想做的不仅仅是分类，例如想要比较特定类别最有可能的文档，那么您必须使用后验概率的实际定义：

P(class1|document) = P(class1) * P(feature1|class1) * ... * P(featureK|class1)/Sum_over_all_numerators

Run Code Online (Sandbox Code Playgroud)

这将在不同特征长度的文档之间正确标准化。

归档时间：	14 年，5 月前
查看次数：	1978 次
最近记录：	14 年，5 月前