kon*_*onr 2 classification web-crawler web-scraping
我需要抓住一千个共享相同结构的网站:它们都有菜单,标题,一些文本和评级,就像博客一样.不幸的是,它们的编码方式也有很大不同,有些是手动的,所以我不能重新使用CSS选择器,甚至可能不依赖它们.
我想知道如何自动对它们进行分类并保存我的头发.我的第一个猜测是使用lynx或文本浏览器来获取一些文本块并根据它们的大小对它们进行分类.
你知道一种更好或更复杂的方法吗?
谢谢!
bma*_*ies 6
查看http://code.google.com/p/boilerpipe/以反汇编页面.
有关分类,请查看mahout.apache.org.
归档时间:
14 年,10 月 前
查看次数:
1194 次
最近记录:
11 年,4 月 前