Kev*_*lan 6 parsing nlp web-crawler
想知道是否有人可以向我指出学术论文的方向或启发式方法的相关实现,以查找特定网页的真实内容。
显然这不是一个简单的任务,因为问题描述是如此模糊,但我认为我们都对页面主要内容的含义有一个大致的了解。
例如,它可能包括新闻文章的故事文本,但可能不包括任何导航元素、法律免责声明、相关故事预告片、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别。
我认为这种方法的应用价值很大,并且希望谷歌在他们的搜索算法中以某种方式使用它,所以在我看来,这个主题过去已经被学术界对待过。
有参考资料吗?
看待这个问题的一种方法是将其视为信息提取问题。
因此,一种高级算法是收集相同页面类型的多个示例,并推断页面不同部分的解析(或提取)规则(这可能是主要主题)。直觉是,常见的样板文件(页眉、页脚等)和广告最终会出现在这些网页的多个示例上,因此通过对其中一些示例进行训练,您可以快速开始可靠地识别此样板文件/附加代码,然后忽略它。它并非万无一失,但这也是商业和学术网络抓取技术的基础,例如 RoadRunner:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf
引文是:
Valter Crescenzi、Giansalvatore Mecca、Paolo Merialdo:RoadRunner:从大型网站自动提取数据。VLDB 2001:109-118
还有一项被广泛引用的提取技术调查:
Alberto HF Laender、Berthier A. Ribeiro-Neto、Altigran S. da Silva、Juliana S. Teixeira,网络数据提取工具简介,ACM SIGMOD Record,v.31 n.2,2002 年 6 月 [doi>10.1145/565117.565137 ]