使用Jena库的Java中链接数据的Web爬网程序

Pra*_*tal 1 rdf semantic-web web-crawler linked-data

我必须实现一个访问Web上链接数据的Web Cralwer。我为此构建了一个简单的功能。我对此有三个查询:

  1. 我应该使用什么种子URI。该网站提供其在RDF格式的数据,并按照蒂姆·伯纳斯·李关联数据的原则
  2. 通常,对于Web收集者来说,基于回合的方法意味着什么?我了解了一般的Web爬网程序,发现应该遵循基于回合的方法。
  3. 我只能解析可以返回RDF / XML数据的网页。是否足以对链接数据进行爬网。

cyg*_*gri 5

  1. 有两种选择,例如,使用“ 十亿三元挑战”转储中找到的所有URI 作为起点,或者使用数据中心上的lodcloud组中列出的所有资源(可以通过CKAN API检索)。
  2. 对不起,我不知道。
  3. 不能,RDF / XML是不够的,因为许多发布为链接数据的数据集都使用其他格式。您还需要TurtleRDFa。您可以使用Apache Any23,它可以理解以上所有内容。LDSpider是使用Any23的爬虫。