从Wikipedia XML转储中获取静态HTML文件

Bri*_*itz 9 mediawiki wikipedia screen-scraping web-crawler xml-parsing

我希望能够从WikiMedia转储页面下载的巨大的(甚至是压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态HTML文件.似乎有相当多的工具可用,虽然它们的文档很少,所以我不知道它们中的大多数是什么,或者它们是否与最新的转储最新.(我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内我也不希望这么好.)我希望能够从脱机转储中获取HTML文件,而无需在线访问Wikipedia.

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?

Max*_*Sem 5

首先,导入数据然后使用DumpHTML创建 HTML 文件。虽然理论上很简单,但由于涉及的数据量很大并且 DumpHTML 有点被忽视,因此这个过程在实践中可能会很复杂,所以请不要犹豫寻求 帮助

  • 此外,这可能需要几周或几个月的时间。几年前我曾经导入过维基词典转储,这些转储小了几个数量级,而且花了几天时间。在一台非常强大的机器上做这件事会有所帮助。我想知道是否有人可以告诉我们他们进口需要多长时间。 (2认同)