查询大型RDF数据集内存不足

Question

查询大型RDF数据集内存不足

use*_*278 6 semantic-web sparql jena fuseki

我想在我的机器上下载两个或更多数据集,并能够为每个数据集启动一个SPARQL端点.我尝试了Fuseki,这是Jena项目的一部分.然而,它加载到内存整个数据集,如果我打算查询的大型数据集等给出我打算做其他的东西DBpedia中是不是很想要的(启动多个SPARQL端点和使用联合查询系统对他们).

为了让您了解一下,我打算使用SILK链接多个数据集,使用FEDX联合查询系统查询它们.如果你建议改变我正在使用的系统,或者可以给我一个提示,那就太好了.如果您建议可以适合此项目的数据集,那么它也将是一个很好的帮助.

Answer 1

Jos*_*lor 4

Jena的Fuseki可以使用TDB作为存储机制，TDB将东西存储在磁盘上。关于 32 位和 64 位 Java 系统上的缓存的TDB 文档讨论了文件内容映射到内存的方式。我不相信 TDB/Fuseki 将整个数据集加载到内存中；这对于大型数据集来说是不可行的，但 TDB 可以处理相当大的数据集。我认为你应该考虑做的是使用tdbloader创建一个TDB存储；然后你可以将 Fuseki 指向它。

此答案中有一个设置 TDB 存储的示例。在那里，查询是使用执行的tdbquery，但根据文档的运行 Fuseki 服务器部分，您需要做的就是使用相同的 TDB 存储启动 Fuseki 选项--loc=DIR：

--loc=DIR
使用现有的 TDB 数据库。如果不存在则创建一个空的。

归档时间：	12 年，8 月前
查看次数：	2165 次
最近记录：	12 年前