从 RDF 文件中删除重复的三元组

Question

我应该从 RDF 文件中删除重复的三元组吗？例如，我在一个文件中有这些块：

<http://Group/row1>
    vocab:regione Campania ;
    vocab:nome Napoli ;
    vocab:codice NA .

和

<http://Group/row1>
    vocab:nome Napoli ;
    vocab:codice NA .

第二个块中的三元组也全部出现在第一个块中。是否应该从文件中删除第二个块？

Answer 1

RDF 是基于图的表示，图（在这个意义上）是一组边。根据定义，集合没有重复的元素。当然，RDF 图的特定序列化可能会多次描述相同的三元组，并且您可能有理由希望避免这种情况。作为术语说明，您所说的“Triple 1”实际上是三个三元组：

group:row1  vocab:codice  "NA" .
group:row1  vocab:nome  "Napoli".
group:row1  vocab:regione "Campania".

你所说的“Triple 2”实际上是两个三元组：

group:row1  vocab:codice  "NA" .
group:row1  vocab:nome  "Napoli".

无论如何：（i）在数据中多次表示相同的三元组实际上不应该成为问题；(ii) 如果你想删除它，那么读入图表（使用任何 RDF 处理工具）并再次写出来应该会给你一个没有重复信息的表示。例如，假设您有以下内容data.rdf。

group:row1  vocab:codice  "NA" .
group:row1  vocab:nome  "Napoli".
group:row1  vocab:regione "Campania".

当您用 Jena 读入rdfcat并再次写出时，您会得到以下结果：

group:row1  vocab:codice  "NA" .
group:row1  vocab:nome  "Napoli".