Apache Nutch:获取outlink URL的文本上下文

Question

任何人都知道一种有效的方法来提取包装外链接URL的文本上下文.例如,给定此示例文本包含外链:

Nutch可以在一台机器上运行,但通过在Hadoop集群中运行可以获得很大的优势.你可以在这里下载Nutch .有关Apache Nutch的更多信息,请参阅Nutch wiki.

在这个例子中,我想得到包含链接的句子,以及该句子之前和之后的句子.有效地做到这一点的任何方式？我可以调用任何方法来获取类似于获取内容中链接位置的方法吗？或者甚至是我可以修改的nutch代码的一部分来做到这一点？谢谢!

Answer 1

你想做的是网页抓取。Python 和 Hadoop 为此提供了工具。为了实现它，您可以使用选择器。

您可以在此处找到一些如何使用 Python Scrapy 执行此操作的示例：

在 Hadoop 上，最好的方法是使用选择器实现爬行：

级联可用于寻址您指定的 URL ：

有了数据之后，还可以使用R来优化分析：

如果您还没有使用 Hadoop 做过任何事情，这里是一个很好的起点。您可能还想看看HUE Beeswax作为一种对于数据分析非常有用的交互式工具。