我正在研究一个改变这个的Python脚本:
foo
bar
Run Code Online (Sandbox Code Playgroud)
进入:
[[Component foo]]
[[bar]]
Run Code Online (Sandbox Code Playgroud)
脚本检查(每个输入行)是否存在"Component foo"页面.如果存在,则创建指向该页面的链接,如果该页面不存在,则创建直接链接.
问题是我需要一种快速而廉价的方法来检查是否存在很多维基页面.我不想(尝试)下载所有"组件"页面.
我已经找到了一种快速的方法来手动执行此操作:编辑一个新的wiki页面.将所有"组件"链接粘贴到页面中,按预览,然后保存生成的预览HTML页面.生成的HTML文件包含现有页面的链接,而不是不存在的页面.
所以重新解释一下我的问题:如何在Python中保存mediawiki预览页面?
(我没有对数据库的本地访问权限.)
小智 9
您绝对可以使用API来检查页面是否存在:
# assuming words is a list of words you wish to query for
import urllib
# replace en.wikipedia.org with the address of the wiki you want to access
query = "http://en.wikipedia.org/w/api.php?action=query&titles=%s&format=xml" % "|".join(words)
pages = urllib.urlopen(query)
Run Code Online (Sandbox Code Playgroud)
现在您将包含xml的页面如下:
<?xml version="1.0"?><api><query><pages>
<page ns="0" title="DOESNOTEXIST" missing="" />
<page pageid="600799" ns="0" title="FOO" />
<page pageid="11178" ns="0" title="Foobar" />
</pages></query></api>
Run Code Online (Sandbox Code Playgroud)
不存在的页面将显示在此处,但它们具有缺少的"""属性集,如上所示.您还可以检查保存侧的无效属性.
现在,您可以使用自己喜欢的xml解析器来检查这些属性并做出相应的反应.
另见:http://www.mediawiki.org/wiki/API:Query