有没有人解析维基词典?

Ror*_*ory 32 python dictionary web-services wiktionary

Wiktionary是一个涵盖多种语言的维基词典.它甚至有翻译.我有兴趣解析它并使用数据,有没有人做过这样的事情呢?我可以使用任何图书馆吗?(最好是Python.)

raz*_*taz 23

我曾经一次下载了一个维基转储,试图收集斯拉夫语言的单词和定义.我使用elementtree接近它通过转储的xml文件.我会避免试图刮擦或抓取网站,只需下载维基媒体为wiktionary提供的xml转储.转到维基媒体下载,查找英语wiktionary转储(enwiktionary)并转到最近的转储.您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或评论.使用python中您喜欢的任何xml处理库解析它.我个人更喜欢elementtree.祝好运.

  • 你是如何使用elementtree的?据我所知,大多数数据都不是xml标记的,即你得到<text>下的所有内容:<text xml:space ="preserve"> == English == === Etymology 1 === { {rfe}} ====发音====*{{enPR |fēt}},{{IPA | /fiːt/ | lang = en}}*{{audio | en-us-feet.ogg |音频( US)| lang = en}}*{{rhymes |iːt| lang = en}}*{{homophones | lang = en | feat}} ====名词==== {{en-plural noun}} (2认同)

Amb*_*ber 20

Wiktionary在MediaWiki上运行,它有一个API.

API文档的子页面之一是客户端代码,其中列出了一些Python库.


spe*_*oly 15

wordnik在解析定义等方面做得很好,而且它们有很好的api

就像其他人提到的那样,wiktionary是一种格式化的灾难,并不是为了计算机可读而构建的

  • 谢谢,wordnik对我来说非常适合.我有一个[瘦Python客户端](https://github.com/jabbalaci/jabbapylib/blob/master/jabbapylib/dictionary/wordnik.py)来获取单词的定义和示例. (3认同)

Nem*_*emo 10

是的,很多人解析了维基词典.您通常可以在Wiktionary-l邮件列表档案中找到过去的经验.

其他答案未提及的项目是DBPedia的Wiktionary RDF提取.

许多其他研究项目解析了维基词典:你可以在最近的维基词典和维基媒体研究通讯的其他问题中找到一些例子.

最近有人还制作了英文维基词典REST API,其中包含一个未指定的维基数据子集; 该事物的未来计划尚不得而知.


Ben*_*war 9

我解析德语wiktionary时遇到了麻烦.我最终把它写得太难了,但是在我放弃之前,我把我的(根本没有整理好的)代码放在https://github.com/benreynwar/wiktionary-parser上.尽管编辑使用了一些约定,但除了同行监督之外,它们并没有强制执行.使用的模板的多样性以及页面中的所有拼写错误使得解析非常具有挑战性.

我认为问题在于他们使用的是与wiktionary相同的系统,这对于编辑人员的易用性来说是很好的,但是不适合更加结构化的wikitionary内容.这是一种耻辱,因为如果可以很容易地解析wiktionary它将是一个非常有用的资源.

  • 看到其他slashdot wiktionary问题时看到这个.它可能有用.http://en.wikipedia.org/wiki/Ubiquitous_Knowledge_Processing_Lab#Wiktionary_API (2认同)