Nas*_*loo 3

有一个用于元数据收集的开放档案倡议协议,它使用 xml over html 。您可以在以下位置找到它: http: //www.openarchives.org/Register/BrowseSites

此外,深层网络(也称为 Deepnet、隐形网络、暗网或隐藏网络)是指不属于表面网络一部分的万维网内容,由标准搜索引擎编制索引。

商业搜索引擎已经开始探索抓取深网的替代方法。站点地图协议(首先由 Google 开发)和 mod oai 是允许搜索引擎和其他相关方发现特定 Web 服务器上的深层 Web 资源的机制。这两种机制都允许 Web 服务器通告可在其上访问的 URL,从而允许自动发现未直接链接到表面 Web 的资源。Google 的深层 Web 显示系统会预先计算每个 HTML 表单的提交内容,并将生成的 HTML 页面添加到 Google 搜索引擎索引中。所显示的结果每秒有一千次对深层 Web 内容的查询。在该系统中,提交的预计算是使用三种算法完成的:

(1) 选择接受关键字的文本搜索输入的输入值,

(2) 识别仅接受特定类型(例如日期)值的输入,以及

(3) 选择少量的输入组合,生成适合包含在 Web 搜索索引中的 URL。