使用常用词监控品牌

Chr*_*vén 13 language-agnostic algorithm linguistics data-mining

假设您应该在线监控品牌"ONE".可以使用哪些算法将关于品牌ONE的页面与包含常用词ONE的页面分开?

我想也许贝叶斯可以工作,但还有其他方法吗?

Rom*_*man 5

如果它不是真正独特的单词那么我会建议下一个方法.

让我们想象一下,我们的关键词是Java.然后至少有两个类别:关于印度尼西亚的节目和旅游业.我们对第一个感兴趣.

让我们看一下关于Java的小文本(可能来自书籍或维基百科).然后让我们假设一些阈值(例如,0.7).然后让我们将我们的文本与不同的页面进行比较(最快的方法之一是使用经典矢量空间模型算法,您可以自己实现它或在谷歌中找到它的实现).然后将结果与阈值进行比较并过滤弱结果.


关于使用贝叶斯算法:这是不错的方法imo.但是你应该非常小心地"教"你的算法,因为几个糟糕的输入会破坏整个工作.

让我解释.贝叶斯算法的输入是带有品牌词的文本.输出是概率[0 .. 1],你的文字是关于你的品牌而不是其他东西.实际上,这种算法经常会给出接近0或接近1的结果,并且它很少返回0.2到0.8之间的值.这意味着该算法对小变化非常敏感,100个单词的文本中的1或2个单词会严重影响结果.