use*_*286 0 nlp machine-learning
“朴素贝叶斯的另一个系统性问题是,特征被假定为独立的。因此,即使单词是相关的,每个单词也会单独贡献证据。因此,具有强单词依赖性的类的权重大小大于具有强单词依赖性的类的权重大小。弱词依赖性。为了防止具有更多依赖性的类占主导地位,我们对分类权重进行标准化。” (参考)
这究竟意味着什么?有没有什么例子可以更好地解释它?
朴素贝叶斯分类器考虑彼此独立的所有特征。基本上,这意味着特征组合的处理方式与每个特征单独出现的方式相同。
例如 考虑这三个句子
朴素贝叶斯分类器最终可能会为所有这些句子分配“纽约”标签。这种情况会发生,因为它独立地观察“New”和“York”这两个词。从分类器的角度来看,第一个句子包含两个指示标签“New York”的单词(即“New”和“York”),第二个也是(“New”,后来是“new”),第三个也是( “新”和后来的“约克”)。它不关心第二句话缺少“York”一词,因为两次“new”弥补了这一点(可能实际上不是,因为“new”会出现在大量与纽约无关的文档中,但是对于这个例子,我们只是假设两个词具有相同的权重)。分类器也不会关心第三句话中彼此距离较远的单词。

朴素贝叶斯也可以表示为图形模型,如图所示(来源)。那么您可以将 y 视为类别“纽约”,将 x1...x4 视为可观察特征“新”、“约克”、“大”、“苹果”。请注意,从 y 到 x1...x4 存在连接,但每个 x 之间没有连接。
您发布的段落的第二部分似乎是关于体重标准化。基本上,如果您有关于“东京”和“洛杉矶”类别的文档,并且您假设这些城市的名称是指向相应类别的相同权重的观察结果,则该文档仅包含以下单词
东京 洛杉矶
将被朴素贝叶斯分类器分类为属于“洛杉矶”类别。这是因为有两个观察结果支持该类别(“Los”、“Angeles”),但只有一个观察结果支持东京(“Tokyo”)。因此,您需要某种方法来标准化您的体重以适应该问题。
| 归档时间: |
|
| 查看次数: |
1615 次 |
| 最近记录: |