Ric*_*rdo 7 python mediawiki wikipedia
我偶然发现了wikidump python库,我觉得这很适合我.
我可以通过查看源代码来获得,但我是python的新手,我不想编写BS代码,因为我需要它的项目对我来说很重要.
我得到了'wiki-SPECIFICDATE-pages-articles.xml.bz2'文件,我需要将其用作单篇文章提取的源代码.任何人都可以给我一些关于正确实现这一点的指示,或者甚至更好地指出一些文档?我找不到任何东西!
(ps如果你有更好的文档lib,请告诉我)
Aub*_*rey 0
不确定我是否理解这个问题,但是如果您有维基百科转储并且需要解析维基代码,我会建议mwparserfromhell lib。
另一个强大的框架是Pywikibot,这是维基百科上机器人用户的历史框架(因此,它有许多专门用于编写页面的脚本,而不是阅读和解析文章)。它有很多文档(尽管有时已经过时)并且使用 MediaWiki API。
当然,您可以同时使用它们:PWB 用于获取文章,mwparserfromhell 用于解析。
归档时间:
12 年,4 月 前
查看次数:
792 次
最近记录:
10 年,8 月 前