Mar*_*ark 6 internet web-crawler
我想知道是否有一个软件可以用来发现给定 URL 的所有文件和子目录?
例如,给定www.some-website.com/some-directory/,我想查找/some-directory/目录中的所有文件以及 中的所有子目录(及其文件)/some-directory/。
这适用于 HTTP 协议。
在 CMS 类型的系统上,没有目录和子目录,只有与分配给您所请求的信息的信息节点/ID 相对应的路由。这些路线是根据用于访问该信息的分类方法动态创建的(最新帖子、类别、标签、品牌列表以及网站所有者可能用来帮助您找到最终节点的任何其他展示分类方法)
因此,您正在查找的信息可能由多种变体表示,具体取决于用于访问最终节点(虚拟页面)的路由
为了让网站所有者满意,避免服务器超载,请像 Google 一样查找 sitemap.xml 文件。如果网站所有者遵循最佳实践,这将是网站上可用的规范网页的完整列表,这意味着您只需访问最终虚拟页面一次,而不必最终下载同一内容的多个副本。