Google新闻如何自动将文章分类为Tech/Science/Health/Entertainment /等?

yon*_*ano 9 algorithm machine-learning web-scraping google-news

假设我选择一个像CNN这样的随机来源.根据关键字自动将抓取的文章分类为类别,或者根据不同的类别(例如cnn.com/tech或/ entertainment)抓取网站的各个部分会更有利.第二个选项不容易扩展,我不想手动配置不同来源的网址.Google新闻如何解决此问题?

Nei*_*gan 8

这是2005年的Google专利

"改善新闻文章排名的系统和方法"

以及2012年的更新:

用于改进新闻文章排名的系统和方法

如果你想自己构建一个简单的系统,我会做这样的事情:

把一堆已经分类为体育/科技/其他的新闻报道.

将它们标记为单个单词和单词(短单词序列).

创建一个非常大的表,其中包含唯一的单词和克作为列和单个故事作为行:

StoryId  Class  word1  word2  gram1  gram2 ...

1        sports 0      0.2    0.01   0
2        tech   0.5    0.01   0      0.3
3        sports 0      0.1    0.3    0.01
Run Code Online (Sandbox Code Playgroud)

其中单元格中的值表示文档中单词的频率,二进制出现或TF-IDF分数.

使用分类算法(如Naive Bayes或支持向量机)来学习相对于类标签的列的权重.这称为您的模型.

当您获得一个新的,未分类的文档时,以与之前相同的方式对其进行标记,应用您之前创建的模型,它将为您提供文档的最可能的类标签.

这是我的视频系列,其中包含有关自动文档分类的视频:

http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html

  • 谷歌新闻很容易在这样简单的模型上运行,所以它并没有真正解决OP问题. (2认同)