标签: wikipedia

我如何获取维基百科文章的解析信息框?

我仍然坚持试图从维基百科解析文章的问题.实际上我希望从维基百科解析文章的信息框部分,即我的应用程序引用了国家和每个国家页面,我希望能够显示该国家相应的维基百科文章中的信息框.我在这里使用PHP - 如果有人有任何代码片段或建议我应该在这里做什么,我将不胜感激.

再次感谢.


编辑

好吧,我有一个包含国家名称的数据库表.我有一个脚本,需要一个国家,并显示其详细信息.我想抓住信息框 - 带有所有国家详细信息图片等的蓝色框,因为它来自维基百科并在我的页面上显示.我想知道一个非常简单易行的方法 - 或者有一个脚本只是将信息框的信息下载到本地远程系统,以后我可以自己访问.我的意思是我对这里的想法持开放态度 - 除了我想要的最终结果是在我的页面上看到信息框 - 当然在底部有一些基于维基百科的内容链接:)


编辑

我想我在http://infochimps.org找到了我想要的东西- 他们在我认为的YAML语言中有很多数据集.我可以直接使用这些信息,但我需要一种方法来不断更新维基百科中的这些信息,尽管我认为信息框很少会改变特别是o国家,除非一些国家决定改变他们的首都城市左右.

php wikipedia wikipedia-api

9
推荐指数
3
解决办法
1万
查看次数

将文章直接插入MediaWiki数据库

我需要一种方法将新文章直接插入我的MediaWiki数据库而不会损坏wiki安装.

我猜我是否知道MediaWiki在创建新文章时插入了哪些表/属性然后我可以自己填写它们.

有谁知道更好的方法或有任何建议?

sql database wiki mediawiki wikipedia

9
推荐指数
2
解决办法
5330
查看次数

在本地服务器上使用freebase数据?

是否存在使用freebase数据转储创建类似于freebase提供的数据库的现有方法,但是在您自己的服务器上?相当多的freebase但是在本地而不是通过API?

我想有可能创建,但是现在有没有现成的解决方案?或者不使用API​​的类似数据的替代解决方案?我没有为dbpedia找到这个:|

java wikipedia freebase

9
推荐指数
2
解决办法
5342
查看次数

Wikipedia API:如何搜索特定类别中的术语

我很难找到一个基本任务:如何找到特定类别中限制的术语..

我觉得Wiki API文档有点令人困惑......

我只想收到一个JSON文件作为输出,其中包含与该术语相关的所有建议

恩.我搜索矩阵,类别电影,所以我可以有矩阵1矩阵2等不包括数学结果等...

谢谢

api wikipedia wikipedia-api

9
推荐指数
2
解决办法
5815
查看次数

从Wikipedia XML转储中获取静态HTML文件

我希望能够从WikiMedia转储页面下载的巨大的(甚至是压缩的)英文维基百科XML转储文件enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态HTML文件.似乎有相当多的工具可用,虽然它们的文档很少,所以我不知道它们中的大多数是什么,或者它们是否与最新的转储最新.(我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内我也不希望这么好.)我希望能够从脱机转储中获取HTML文件,而无需在线访问Wikipedia.

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具?

mediawiki wikipedia screen-scraping web-crawler xml-parsing

9
推荐指数
1
解决办法
4386
查看次数

寻找从维基百科中获取的n-gram数据库

我正在有效地尝试解决与此问题相同的问题:

查找特定单词的相关单词(特别是物理对象)

减去单词代表物理对象的要求.答案和编辑过的问题似乎表明,使用维基百科文本作为语料库,建立一个n-gram频率列表是一个良好的开端.在我开始下载庞大的维基百科转储之前,有谁知道这样的列表是否已经存在?

PS如果上一个问题的原始海报看到这个,我很想知道你是如何解决问题的,因为你的结果看起来很棒:-)

nlp wikipedia semantics

8
推荐指数
1
解决办法
1393
查看次数

维基百科:用于删除维基百科文本标记删除的Java库

我下载了wikipedia转储,现在想删除每个页面内容中的维基百科标记.我尝试编写正则表达式但是它们太多而无法处理.我找到了一个python库,但我需要一个java库,因为我想要集成到我的代码中.

谢谢.

java wiki parsing wikipedia

8
推荐指数
1
解决办法
7108
查看次数

维基百科API:如何获取页面的修订数量?

任何人都知道如何使用mediawiki API获取维基百科页面的修订数量?我已阅读此API文档,但找不到相关的API:
Revision API

wikipedia wikipedia-api wikimedia mediawiki-api

8
推荐指数
1
解决办法
1869
查看次数

维基百科API的限制

我读过维基百科的api被称为媒体维基.我的问题是关于这个api.这个api每天/小时/分钟的通话次数是多少?我似乎无法找到它.

api wikipedia

8
推荐指数
2
解决办法
5791
查看次数

从Wikipedia检索数据并使用angularjs显示它

我是angularjs的新手.我试图从维基百科获取数据并在前端显示它.我使用以下php代码从wiki中重新获取数据

$url = 'http://en.wikipedia.org/w/api.php?action=query&prop=extracts|info&exintro&titles=Sachin_Tendulkar&format=json&explaintext&redirects&inprop=url&indexpageids';
$json = file_get_contents($url);
echo json_encode($json);
Run Code Online (Sandbox Code Playgroud)

以下是我的控制器

var demoApp = angular.module('demoApp',['ngRoute']);
demoApp.controller('SimpleController',function ($scope,$http){
    $http.post('server/view1.php').success(function(data){
        $scope.info = data;
    });
});
Run Code Online (Sandbox Code Playgroud)

我的HTML如下

<html ng-app="demoApp">
<head>
    <title> AngularJS Sample</title>
    <script type="text/javascript" src="js/angular.min.js"></script>
    <script type="text/javascript" src="js/angular-route.min.js"></script>
    <script type="text/javascript" src="js/script.js"></script>
    <link rel="stylesheet" type="text/css" href="css/style.css">
    <link rel="stylesheet" type="text/css" href="css/bootstrap-combined.min.css">
</head>
<body>
    <div ng-controller="SimpleController">
        {{info.query}} // I dont know if this is right
    </div>
</body>
</html>
Run Code Online (Sandbox Code Playgroud)

我想显示在前端检索但未显示的所有内容.我不知道我做错了什么.我是angularjs的新手.

javascript php wikipedia wikipedia-api angularjs

8
推荐指数
2
解决办法
3220
查看次数