我可以使用什么软件来抓取(下载)MediaWiki wiki?

aps*_*nce 7 script download mediawiki archiving

我想抓取使用 MediaWiki 软件的整个 wiki。页数很少,但有很多修订,我也想最好刮修订。

与维基百科不同,维基不提供数据库转储。是否有任何现有的软件/脚本旨在抓取 MediaWiki 站点?

Tim*_*mSC 6

查看 WikiTeam 提供的工具。http://archiveteam.org/index.php?title=WikiTeam

我个人使用 wikiteam 的 dumpgenerator.py,它可以在这里找到:https : //github.com/WikiTeam/wikiteam

这取决于python 2。您可以使用git获取软件或从github下载zip:

git clone https://github.com/WikiTeam/wikiteam.git
Run Code Online (Sandbox Code Playgroud)

基本用法是:

python dumpgenerator.py http://wiki.domain.org --xml --images
Run Code Online (Sandbox Code Playgroud)

  • 欢迎使用超级用户!您可以将链接的相关部分添加到您的答案中吗?我们要求这样做是为了帮助 OP,这样他们就不必搜索可能与他们无关的信息。这也是为了在托管站点出现故障时保留相关信息。有关更多信息,请参阅此 [meta post](http://meta.stackoverflow.com/q/8259)。 (2认同)

Ilm*_*nen 3

如果 wiki 的维护者没有关闭它,您可以通过Special:Export导出页面及其历史记录。这将为您提供类似于 Wikipedia 数据库转储的 XML 转储,然后您可以将其导入到另一个 wiki 中。

从 MediaWiki 获取 XML 格式的页面历史记录的另一种方法是使用prop=revisions API 查询。但是,API 结果格式与 Special:Export 生成的格式有些不同,因此您可能需要对输出进行一些处理,然后才能将其提供给标准导入脚本。