Bri*_*itz 9 mediawiki wikipedia screen-scraping web-crawler xml-parsing
我希望能够从WikiMedia转储页面下载的巨大的(甚至是压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态HTML文件.似乎有相当多的工具可用,虽然它们的文档很少,所以我不知道它们中的大多数是什么,或者它们是否与最新的转储最新.(我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内我也不希望这么好.)我希望能够从脱机转储中获取HTML文件,而无需在线访问Wikipedia.
有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?
首先,导入数据。然后使用DumpHTML创建 HTML 文件。虽然理论上很简单,但由于涉及的数据量很大并且 DumpHTML 有点被忽视,因此这个过程在实践中可能会很复杂,所以请不要犹豫寻求 帮助。