如何解析维基百科转储以创建链接图?

Ped*_*dro 5 parsing wikipedia dump graph hyperlink

我正在寻找一种方法来解析维基百科转储并检索在每个页面中找到的超链接。我的主要目标是在从一个维基百科页面到另一个页面的可能路径上创建一个有向图。

例如:“狗”的页面定义有一个指向“犬狼疮”的链接。所以我会有一个 Dog-> Canis Lupus 作为输出。

PS:如果有的话,我更喜欢 python 库。

Vik*_*uri -2

既然你正在尝试处理图论,你将需要两件事 -

  • 图表制作
  • 图的实现和存储

生产

您可能会尝试使用来自 wikimedia 的 XML 转储来实现您的目的。
我建议最好的解决方案是使用某种解析脚本从文档中提取链接。

执行

要存储巨大的图形,您必须将脚本的输出存储在某种图形数据库中。看看这里的一些受欢迎的。

因此,该过程很简单。您的脚本将逐一解析文档并将结果存储在图形数据库中,供您稍后使用。