如何使用dbPedia递归提取子类别中的所有文章?

ser*_*mal -1 wikipedia sparql dbpedia sparqlwrapper

我需要提取位于给定类别(例如,历史)的不同嵌套子类别中的文章(例如,摘要、缩略图)的信息。我怎样才能使用 SPARQL 查询做到这一点?或者使用几个 SPARQL 子查询在 python 上执行此操作的最佳方法是什么?

Mar*_*ler 5

这将得到所有?sc递归(或传递)比“历史”更窄的“子类别”,深度为 3。我用{minDepth,maxDepth}Virtuoso 理解的符号实现了它。其他三元组可能看不懂。我还在字符串文字上添加了英语过滤,同时仍然保留了?o.

SELECT ?sc ?lab ?p ?o 
WHERE {
  ?sc skos:broader{1,3} <http://dbpedia.org/resource/Category:History> .
  optional {?sc rdfs:label ?lab  } .
  ?sc ?p ?o 
  filter (lang(?lab) = "en")
  filter ((lang(?o) = "en") || isURI(?o))
} 
Run Code Online (Sandbox Code Playgroud)

此外,该查询将所有三元组报告?sc为主题。我没有看到任何摘要(<http://dbpedia.org/ontology/abstract>用作谓词?)或任何缩略图关系。您可以通过仅投影distinct ?p甚至计数来确认:

SELECT ?p (count(?p) as ?pcount)
WHERE {
  ?sc skos:broader{1,3} <http://dbpedia.org/resource/Category:History> .
  optional {?sc rdfs:label ?lab  } .
  ?sc ?p ?o 
  filter (lang(?lab) = "en")
  filter ((lang(?o) = "en") || isURI(?o))
} 
group by ?p
order by desc(?pcount)
Run Code Online (Sandbox Code Playgroud)

如果你做更深入的递归,你会发现一些摘要。但是深度递归很慢,我觉得我在概念上遗漏了一些东西。

SELECT *
WHERE {
  ?sc skos:broader{5,7} <http://dbpedia.org/resource/Category:History> .
  ?sc <http://dbpedia.org/ontology/abstract> ?a 
} 
Run Code Online (Sandbox Code Playgroud)