MrT*_*Man 3 java mediawiki wikipedia wikipedia-api
我正在解析java中的wikipedia转储.在我的模块中,我想知道当前页面引用的wiki内部页面的页面ID.从中获取内部链接以及网址很容易.但是如何从url获取页面ID.
我必须使用一些mediaWiki吗?如果是,如何有其他选择吗?
例如:http://en.wikipedia.org/wiki/United_States 我想得到它的Page-Id即3434750
您可以使用API.具体来说,查询看起来像:
http://en.wikipedia.org/w/api.php?action=query&titles=United_States
(您还可以在titles参数中指定多个页面标题,以|.分隔.)
作为替代方案,您可以下载page.sql 转储(为英语维基百科压缩1 GB),其中也包含此信息.要实际查询它,您可以将其导入MySQL数据库然后查询,或者您可以直接解析SQL.
| 归档时间: |
|
| 查看次数: |
1041 次 |
| 最近记录: |