我只需要检索维基百科页面的第一段.内容必须是html格式化,随时可以在我的网站上显示(所以没有BBCODE或WIKIPEDIA特殊代码!)
在我的维基百科用户页面上,我运行一个维基百科脚本,显示我的统计数据(编辑的页数,新页数,每月活动等).
我想把这些信息放在我的博客上.
是否有API可以让我做这样的事情?
我正在研究维基百科API,
什么是pageid?如何将其更改为真实页面网址?
我的意思是<page pageid="18630637" ns="0" title="Translation" />
,如何18630637
变成http://en.wikipedia.org/wiki/Translation
?
我试图找出是否有维基百科api(我认为它与mediawiki有关?).
如果是这样,我想知道如何告诉维基百科给我一篇关于纽约洋基队的文章.
这个例子的REST网址是什么?
关于这个主题的所有文档看起来都相当复杂.
我尝试使用Python的urllib获取维基百科文章:
f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")
s = f.read()
f.close()
Run Code Online (Sandbox Code Playgroud)
然而,而不是HTML页面,我得到以下响应:错误 - 维基媒体基金会:
Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT
Run Code Online (Sandbox Code Playgroud)
维基百科似乎阻止了不是来自标准浏览器的请求.
有谁知道如何解决这个问题?
如何使用Python从Wikipedia文章中提取第一段?
例如,阿尔伯特爱因斯坦,那将是:
阿尔伯特爱因斯坦(发音为/ælbərtaɪnstaɪn/;德语:[albɐtaɪnʃtaɪn](听); 1879年3月14日 - 1955年4月18日)是理论物理学家,哲学家和作家,被广泛认为是最具影响力和标志性的科学家和知识分子之一有史以来 作为德国 - 瑞士诺贝尔奖获得者,爱因斯坦经常被视为现代物理学之父.[2] 他获得了1921年诺贝尔物理学奖,"因为他为理论物理学服务,特别是他发现了光电效应定律".[3]
是否有可能使用现有的维基百科API获取围绕地理位置的文章列表?有点像谷歌地图吗?
我想说我"在这里"并在维基百科上找出我身边的东西.
我可以像文章中看到这样你可以看到在右侧的"坐标",所以我想这样做这些坐标查询...
有什么想法吗?
我想使用该query
操作搜索Wikipedia .我正在使用这个网址:
http://en.wikipedia.org/w/api.php?action=query&format=json&list=search&srsearch=apple
这有效,但我想进入搜索的第一个结果.我怎样才能做到这一点?
注意:当只有一个结果时,该URL工作正常.我只需要标题和一些简短描述.
我希望为我的大学项目下载完整的维基百科文本.我是否必须编写自己的蜘蛛才能下载此文件,或者是否有在线提供维基百科的公共数据集?
为了给你一些关于我的项目的概述,我想找出我感兴趣的一些文章中有趣的单词.但是为了找到这些有趣的单词,我打算用tf/idf来计算每个单词的术语频率并选择高频率的.但是要计算tf,我需要知道整个维基百科的总发生次数.
如何才能做到这一点?
我想获得所有维基百科文章的所有标题列表.我知道有两种方法可以从维基媒体的wiki中获取内容.一个是API,另一个是数据库转储.
我不想下载wiki转储.首先,它是巨大的,其次,我对查询数据库并不是很有经验.另一方面,API的问题在于我无法找到一种只检索文章标题列表的方法,即使它需要> 4 mio请求,这可能会让我阻止任何进一步的请求.
所以我的问题是
wikipedia ×10
api ×3
mediawiki ×3
python ×2
geolocation ×1
json ×1
text ×1
urllib2 ×1
user-agent ×1
web-crawler ×1