Apache Nutch:获取outlink URL的文本上下文

use*_*701 7 apache hadoop nutch web-scraping

任何人都知道一种有效的方法来提取包装外链接URL的文本上下文.例如,给定此示例文本包含外链:

Nutch可以在一台机器上运行,但通过在Hadoop集群中运行可以获得很大的优势.你可以在这里下载Nutch .有关Apache Nutch的更多信息,请参阅Nutch wiki.

在这个例子中,我想得到包含链接的句子,以及该句子之前和之后的句子.有效地做到这一点的任何方式?我可以调用任何方法来获取类似于获取内容中链接位置的方法吗?或者甚至是我可以修改的nutch代码的一部分来做到这一点?谢谢!

Ava*_*anz 4

你想做的是网页抓取。Python 和 Hadoop 为此提供了工具。为了实现它,您可以使用选择器。

您可以在此处找到一些如何使用 Python Scrapy 执行此操作的示例:

在 Hadoop 上,最好的方法是使用选择器实现爬行:

级联可用于寻址您指定的 URL

有了数据之后,还可以使用R来优化分析:

如果您还没有使用 Hadoop 做过任何事情,这里是一个很好的起点。您可能还想看看HUE Beeswax作为一种对于数据分析非常有用的交互式工具。