使用Jena库的Java中链接数据的Web爬网程序

Pra*_*tal 1 rdf semantic-web web-crawler linked-data

我必须实现一个访问Web上链接数据的Web Cralwer。我为此构建了一个简单的功能。我对此有三个查询：

我应该使用什么种子URI。该网站提供其在RDF格式的数据，并按照蒂姆·伯纳斯·李关联数据的原则？
通常，对于Web收集者来说，基于回合的方法意味着什么？我了解了一般的Web爬网程序，发现应该遵循基于回合的方法。
我只能解析可以返回RDF / XML数据的网页。是否足以对链接数据进行爬网。

有两种选择，例如，使用“ 十亿三元挑战”转储中找到的所有URI 作为起点，或者使用数据中心上的lodcloud组中列出的所有资源（可以通过CKAN API检索）。
对不起，我不知道。
不能，RDF / XML是不够的，因为许多发布为链接数据的数据集都使用其他格式。您还需要Turtle和RDFa。您可以使用Apache Any23，它可以理解以上所有内容。LDSpider是使用Any23的爬虫。

归档时间：	13 年，1 月前
查看次数：	1140 次
最近记录：	10 年，8 月前

查找每个Docker镜像的图层和图层大小 78

.NET Custom Threadpool具有单独的实例 12

我在哪里可以下载rdf/owl/nt数据文件？ 7

在 python 中同时运行多个线程 - 有可能吗？ 6

“Curl：(33) HTTP 服务器似乎不支持字节范围。无法恢复。” 6

Jena Text 查询性能在处理大型数据集时会急剧下降 6

如何从Freebase获取所有电影ID列表？ 5

objectProperty中的多个域和范围？ 5

Scrapy蜘蛛没有收到spider_idle信号 4

如何使用ElementWalker动态地将三元组添加到Jena查询？ 1

将现有的,未提交的工作移动到Git中的新分支 2982

在Python中查找包含它的列表的项目的索引 2887

什么是JavaBean？ 1677

我如何递归grep？ 1619

如何在不注销并重新登录的情况下重新加载.bashrc？ 1510

如何检查iOS或macOS上的活动Internet连接？ 1309

如何查看仅一个用户提交的git日志？ 1178

Python类继承对象 1095

为什么使用'=='或'is'比较字符串有时会产生不同的结果？ 1076

在Notepad ++中将制表符转换为空格 1042