是否有任何.Net库来解析我通过mediawiki api检索到的页面?一个标准的mediawiki解析器,可以只用纯数据提供标题和数据,但我宁愿有一个特别适合wiktionary,一个可以给我什么类型的单词和所有定义.
我不想为此编写自己的解析器.有什么建议?
好吧,我只是想解析Wikimedia提供的维基词典数据转储。
我的目的是将 XML 数据转储解析到 MySQL 数据库中。我没有找到有关此 XML 结构的正确文档。另外,我无法打开该文件,因为它实际上非常大(~1 GB)。
我想过使用一些 PHP 脚本来解析它,但我对 XML 结构一无所知。因此,如果有人已经使用 PHP 解析(或知道任何解析工具)到 MySQL 中,请分享详细信息。如果PHP中没有,其他方法也可以。
我刚刚关注了这篇文章(http://www.igrec.ca/lexicography/installing-a-local-copy-of-wiktionary-mysql/)但它没有成功..:(如果有人在这方面取得了成功过程,请帮忙。提前致谢。
我想从维基词典下载所有可数名词(类别:英语可数名词),
我在/enwiktionary/latest/ 的索引上尝试了一些语料库,但看起来很难提取我想要的类别。谁能告诉我应该使用哪个以及如何提取特定类别的单词列表?或者有没有其他方法可以做到这一点,比如使用 API?
我有兴趣将英语单词翻译成特定语言(例如俄语).我已经阅读了整个维基词典API手册,但我还没有找到一个好方法.对于单词"dog",我可以通过以下方式使用wiktionary API获取包含其他语言翻译的整个部分:
http://en.wiktionary.org/w/api.php?action=query&titles=dog&prop=revisions&rvprop=content&rvsection=11
Run Code Online (Sandbox Code Playgroud)
翻译部分编号不是恒定的,并且对于各种单词是不同的.对于"狗",翻译部分编号是11我需要的"猫" rvsection=7.是否可以在不下载整个翻译部分的情况下获得任何英语单词的特定语言的翻译?
我正在尝试使用SPARQL查询维基词典,以获取所有特定语言的名词(例如德语)和输出:
我正在使用SPARQL-Endpoint:http://wiktionary.dbpedia.org/sparql 我找到了一个例子,但我没有弄清楚如何调整它来获取我想要的信息.
PREFIX terms:<http://wiktionary.dbpedia.org/terms/>
PREFIX rdfs:<http://www.w3.org/2000/01/rdf-schema#>
PREFIX dc:<http://purl.org/dc/elements/1.1/>
SELECT ?sword ?slang ?spos ?ssense ?twordRes ?tword ?tlang
FROM <http://wiktionary.dbpedia.org>
WHERE {
?swordRes terms:hasTranslation ?twordRes .
?swordRes rdfs:label ?sword .
?swordRes dc:language ?slang .
?swordRes terms:hasPoS ?spos .
OPTIONAL { ?swordRes terms:hasMeaning ?ssense . }
OPTIONAL {
?twordBaseRes terms:hasLangUsage ?twordRes .
?twordBaseRes rdfs:label ?tword .
}
OPTIONAL { ?twordRes dc:language ?tlang . }
}
Run Code Online (Sandbox Code Playgroud) wiktionary ×5
.net ×1
c# ×1
data-dump ×1
mysql ×1
php ×1
sparql ×1
web-scraping ×1
wiki ×1
xml-parsing ×1