yon*_*ano 9 algorithm machine-learning web-scraping google-news
假设我选择一个像CNN这样的随机来源.根据关键字自动将抓取的文章分类为类别,或者根据不同的类别(例如cnn.com/tech或/ entertainment)抓取网站的各个部分会更有利.第二个选项不容易扩展,我不想手动配置不同来源的网址.Google新闻如何解决此问题?
这是2005年的Google专利
以及2012年的更新:
如果你想自己构建一个简单的系统,我会做这样的事情:
把一堆已经分类为体育/科技/其他的新闻报道.
将它们标记为单个单词和单词(短单词序列).
创建一个非常大的表,其中包含唯一的单词和克作为列和单个故事作为行:
StoryId Class word1 word2 gram1 gram2 ...
1 sports 0 0.2 0.01 0
2 tech 0.5 0.01 0 0.3
3 sports 0 0.1 0.3 0.01
Run Code Online (Sandbox Code Playgroud)
其中单元格中的值表示文档中单词的频率,二进制出现或TF-IDF分数.
使用分类算法(如Naive Bayes或支持向量机)来学习相对于类标签的列的权重.这称为您的模型.
当您获得一个新的,未分类的文档时,以与之前相同的方式对其进行标记,应用您之前创建的模型,它将为您提供文档的最可能的类标签.
这是我的视频系列,其中包含有关自动文档分类的视频:
http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html