从Wikipedia数据库转储生成纯文本

Asi*_*sim 7 python xml database shell wikipedia

我找到了一个Python脚本(这里是:维基百科提取器),它可以从(英语)维基百科数据库转储中生成纯文本.当我使用此命令时(如脚本页面上所述):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

文件"enwiki-latest-pages-articles.xml",第1行<mediawiki xmlns ="http://www.mediawiki.org/xml/export-0.8/"xmlns:xsi ="http://www.w3. org/2001/XMLSchema-instance"xsi:schemaLocation ="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd"version =" 0.8"xml:lang ="en">

^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)

我在Windows 7上使用Python 2.7.6和Cygwin执行脚本.

我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误.

提前致谢!

ale*_*cxe 16

第一个参数python应该是脚本名称.

你可能需要交换xmlpy文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted
Run Code Online (Sandbox Code Playgroud)

  • @Asim我认为你几乎是对的 - 在文件内容方面应该通过管道输入wiki提取器,比如`cat enwiki-latest-pages-articles.xml | python WikiExtractor.py -b 500K -o extract`.试试看. (6认同)
  • @Asim请考虑接受答案,谢谢. (3认同)