Ubuntu预装了Python 2.7.2+.(我也下载了python开发包.)由于我遇到的另一个问题(如何更新/更新Apache使用的expat库的版本?),Graham Dumpleton告诉我我的发行版已经明确了以一种使用外部pyexpat实现的方式构建Python,因此导致我的问题.他还说我可以自己从源代码构建Python来解决这个问题.我如何在Ubuntu上执行此操作?(请记住,我是Linux的新手.)
要旨
在执行大量40 GB以上的英语维基百科导入之前,我不得不暂时删除三个表('page','revision'和'text')中的索引和自动增量字段来处理负载.现在我终于成功地将英语维基百科导入我的本地机器并创建了一个本地镜像(MediaWiki API).好极了!
但是,我现在需要在不到十年的时间内重新创建索引和自动增量字段.幸运的是,(1)在删除索引和字段之前,我在phpmyadmin中拍摄了相关表格的大量屏幕截图; (2)我可以极其精确地解释我在导入之前采取的步骤; (3)对于任何流利MySQL的人来说,这都不应该太困难.不幸的是,我没有MySQL的专业知识,所以"婴儿步骤"的解释将非常有帮助.
我特别想要做什么(准备进口):
步骤1,2,3:此图像描述了我通过单击"更改"并取消选中"自动增量"(准备导入)修改字段page_id之前的表格页面.我对表修订中的字段rev_id和表格文本中的old_id执行了完全相同的修改,但省略了屏幕截图以避免冗余.

第4步:此图像描述了在删除所有表之前表页的索引.

步骤5:此图像描述了在删除所有表之前表修订的索引.

第6步:此图像描述了在删除所有表之前表格文本的索引.

我现在需要什么(进口后恢复):
我只需要恢复原始索引和自动增加字段而无需等待一百年.
设置细节:PHP 5.3.8(apache2handler),MySQL 5.5.16(InnoDB),Apache 2.2.21,Ubuntu 12.04 LTS,MediaWiki 1.19.0(私人wiki)
我希望能够从WikiMedia转储页面下载的巨大的(甚至是压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态HTML文件.似乎有相当多的工具可用,虽然它们的文档很少,所以我不知道它们中的大多数是什么,或者它们是否与最新的转储最新.(我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内我也不希望这么好.)我希望能够从脱机转储中获取HTML文件,而无需在线访问Wikipedia.
有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?