标签: wikipedia

从维基百科中检索音乐艺术家数据?

在按类型对音乐进行分类时,我发现维基百科比其他大多数数据源都有更多有趣的类型信息.

我似乎记得有一个数据库从维基百科收集这类信息并使其更容易访问,但我今天无法谷歌.

如果我要尝试检索此数据,我有哪些选择?有没有像我描述的那样或者我需要进行屏幕刮擦?

wikipedia

8
推荐指数
3
解决办法
5503
查看次数

用于检索有名人士信息的API

我正在寻找一些可赎回的方式来获取有关名人和名人的信息.给定一个字符串,我想,以确定它是否是一个有名的人的名字,如果是这样,如果他们还活着,也许他们落入(如演员,音乐家,运动员)哪个类别.

有没有人知道任何公开的API来做这样的事情?我能想到的最好的是维基百科,但它很有问题,因为大部分信息必须被解析,并且不是可靠且可预测的格式.

我还希望能够在初始搜索没有任何内容时为可能的名称提供建议(因为字符串将来自人并且可能包含拼写错误).

api wikipedia wikipedia-api

8
推荐指数
1
解决办法
6190
查看次数

如何将部分维基百科内容检索到Android App?

基本上,我想从维基百科中检索内容.但我想直接在我的Android应用中显示它.不是立即重定向到互联网浏览器,而是首先在我的应用程序中显示它.

目前,我设法通过使用http://en.wikipedia.org/w/api.php?action=parse&prop=text&format=xml&page=Bla_Bla_Bla来请求Wikipedia API并仅获取主要内容.因为我解析数据,我将使用WebView在Android中进行渲染.它成功渲染.但只对那些没有保护的文章......

如果受到保护,例如Mona Lisa,则在WebView Android中无法正确呈现输出.

我想知道是否有人试图检索维基百科内容并在您的Android应用程序中显示它,轻松而美观?

谢谢 :)

xml android mediawiki wikipedia wikipedia-api

8
推荐指数
1
解决办法
5305
查看次数

如何从R访问维基百科?

是否有任何R包允许查询维基百科(最有可能使用Mediawiki API)获取与此类查询相关的可用文章列表,以及导入文本挖掘的选定文章?

wikipedia r text-mining wikipedia-api mediawiki-api

8
推荐指数
2
解决办法
4330
查看次数

维基百科API:如何获取页面的修订数量?

任何人都知道如何使用mediawiki API获取维基百科页面的修订数量?我已阅读此API文档,但找不到相关的API:
Revision API

wikipedia wikipedia-api wikimedia mediawiki-api

8
推荐指数
1
解决办法
1869
查看次数

如何使用wiki下载的索引文件中提供的信息?

我正在尝试使用维基数据对中国人进行一些研究.除了使用dbpedia(因为有关中国人的信息与zh.wikipedia.org相比有点限制),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载.

我看到有一个索引文件,从文件中我可以看到如下行:966576:291:人物

我假设是一个查找键?有人能告诉我如何使用此查找键来搜索主文件或数据库吗?

wiki wikipedia

8
推荐指数
1
解决办法
1140
查看次数

使用在维基百科上预先训练的Word2Vec模型

我需要使用gensim来获取单词的向量表示,并且我认为使用的最好的东西是在英语维基百科语料库上预训练的word2vec模块.有谁知道在哪里下载,如何安装,以及如何使用gensim创建向量?

wikipedia gensim word2vec

8
推荐指数
2
解决办法
8831
查看次数

寻找wikidump python lib的示例或文档

我偶然发现了wikidump python库,我觉得这很适合我.

我可以通过查看源代码来获得,但我是python的新手,我不想编写BS代码,因为我需要它的项目对我来说很重要.

我得到了'wiki-SPECIFICDATE-pages-articles.xml.bz2'文件,我需要将其用作单篇文章提取的源代码.任何人都可以给我一些关于正确实现这一点的指示,或者甚至更好地指出一些文档?我找不到任何东西!

(ps如果你有更好的文档lib,请告诉我)

python mediawiki wikipedia

7
推荐指数
1
解决办法
792
查看次数

从Wikipedia数据库转储生成纯文本

我找到了一个Python脚本(这里是:维基百科提取器),它可以从(英语)维基百科数据库转储中生成纯文本.当我使用此命令时(如脚本页面上所述):

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
Run Code Online (Sandbox Code Playgroud)

我收到此错误:

文件"enwiki-latest-pages-articles.xml",第1行<mediawiki xmlns ="http://www.mediawiki.org/xml/export-0.8/"xmlns:xsi ="http://www.w3. org/2001/XMLSchema-instance"xsi:schemaLocation ="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd"version =" 0.8"xml:lang ="en">

^
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)

我在Windows 7上使用Python 2.7.6和Cygwin执行脚本.

我希望如果有人已经使用过这个脚本或使用Python的经验可以帮助我解决这个错误.

提前致谢!

python xml database shell wikipedia

7
推荐指数
1
解决办法
6979
查看次数

解析维基百科国家、地区、城市

是否有可能获得所有维基百科国家、地区和城市之间存在关系的列表?我找不到适合此任务的任何 API。解析我需要的所有信息的最简单方法是什么?PS:我知道,我可以从其他数据源获取此信息。但是我对维基百科很感兴趣...

parsing mediawiki wikipedia wikipedia-api mediawiki-api

7
推荐指数
2
解决办法
2267
查看次数