Ror*_*ory 32 python dictionary web-services wiktionary
Wiktionary是一个涵盖多种语言的维基词典.它甚至有翻译.我有兴趣解析它并使用数据,有没有人做过这样的事情呢?我可以使用任何图书馆吗?(最好是Python.)
raz*_*taz 23
我曾经一次下载了一个维基转储,试图收集斯拉夫语言的单词和定义.我使用elementtree接近它通过转储的xml文件.我会避免试图刮擦或抓取网站,只需下载维基媒体为wiktionary提供的xml转储.转到维基媒体下载,查找英语wiktionary转储(enwiktionary)并转到最近的转储.您可能需要pages-articles.xml.bz2文件,它只是文章内容,没有历史记录或评论.使用python中您喜欢的任何xml处理库解析它.我个人更喜欢elementtree.祝好运.
Nem*_*emo 10
是的,很多人解析了维基词典.您通常可以在Wiktionary-l邮件列表档案中找到过去的经验.
其他答案未提及的项目是DBPedia的Wiktionary RDF提取.
许多其他研究项目解析了维基词典:你可以在最近的维基词典和维基媒体研究通讯的其他问题中找到一些例子.
最近有人还制作了英文维基词典REST API,其中包含一个未指定的维基数据子集; 该事物的未来计划尚不得而知.
我解析德语wiktionary时遇到了麻烦.我最终把它写得太难了,但是在我放弃之前,我把我的(根本没有整理好的)代码放在https://github.com/benreynwar/wiktionary-parser上.尽管编辑使用了一些约定,但除了同行监督之外,它们并没有强制执行.使用的模板的多样性以及页面中的所有拼写错误使得解析非常具有挑战性.
我认为问题在于他们使用的是与wiktionary相同的系统,这对于编辑人员的易用性来说是很好的,但是不适合更加结构化的wikitionary内容.这是一种耻辱,因为如果可以很容易地解析wiktionary它将是一个非常有用的资源.