检查MediaWiki页面是否存在(Python)

Question

检查MediaWiki页面是否存在(Python)

我正在研究一个改变这个的Python脚本:

foo
bar

Run Code Online (Sandbox Code Playgroud)

进入:

[[Component foo]]
[[bar]]

Run Code Online (Sandbox Code Playgroud)

脚本检查(每个输入行)是否存在"Component foo"页面.如果存在,则创建指向该页面的链接,如果该页面不存在,则创建直接链接.

问题是我需要一种快速而廉价的方法来检查是否存在很多维基页面.我不想(尝试)下载所有"组件"页面.

我已经找到了一种快速的方法来手动执行此操作:编辑一个新的wiki页面.将所有"组件"链接粘贴到页面中,按预览,然后保存生成的预览HTML页面.生成的HTML文件包含现有页面的链接,而不是不存在的页面.

所以重新解释一下我的问题:如何在Python中保存mediawiki预览页面？

(我没有对数据库的本地访问权限.)

Answer 1

小智 9

您绝对可以使用API来检查页面是否存在:

# assuming words is a list of words you wish to query for
import urllib

# replace en.wikipedia.org with the address of the wiki you want to access
query = "http://en.wikipedia.org/w/api.php?action=query&titles=%s&format=xml" % "|".join(words)
pages = urllib.urlopen(query)

Run Code Online (Sandbox Code Playgroud)

现在您将包含xml的页面如下:

<?xml version="1.0"?><api><query><pages>

   <page ns="0" title="DOESNOTEXIST" missing="" />

   <page pageid="600799" ns="0" title="FOO" />

   <page pageid="11178" ns="0" title="Foobar" />

</pages></query></api>

Run Code Online (Sandbox Code Playgroud)

不存在的页面将显示在此处,但它们具有缺少的"""属性集,如上所示.您还可以检查保存侧的无效属性.

现在,您可以使用自己喜欢的xml解析器来检查这些属性并做出相应的反应.

另见:http://www.mediawiki.org/wiki/API:Query

Answer 2

pok*_*oke 5

使用Pywikibot与MediaWiki软件进行交互.它可能是最强大的机器人框架.

在Python的Wikipediabot框架(pywikipedia或PyWikipediaBot)是上链接到MediaWiki网站工作的自动化工具的集合.最初是为维基百科设计的,现在用于整个维基媒体基金会的项目以及许多其他MediaWiki wiki.它是用Python编写的,这是一种免费的跨平台编程语言.此页面提供了有关想要使用僵尸软件的人员的一般信息的链接.

归档时间：	15 年，12 月前
查看次数：	3165 次
最近记录：	7 年，7 月前