从站点获取URL列表

Oli*_*Oli 85 web-crawler

我正在为客户部署替换网站,但他们不希望所有旧网页都以404结尾.保持旧的URL结构是不可能的,因为它是可怕的.

所以我正在编写一个404处理程序,它应该查找被请求的旧页面并永久重定向到新页面.问题是,我需要一个包含所有旧页面网址的列表.

我可以手动执行此操作,但我会感兴趣的是,是否有任何应用程序可以为我提供相关列表(例如:/ page/path,而不是http:/.../ page/path)页.像蜘蛛一样但不关心内容而不是寻找更深层的页面.

Oli*_*Oli 59

我不是故意回答我自己的问题,但我只想到运行一个站点地图生成器.第一个我发现http://www.xml-sitemaps.com有一个很好的文本输出.完美的满足我的需求.

  • 电流限制为**500** - 越来越小...... (12认同)

ala*_*mar 44

wget -r -l0 www.oldsite.com

然后find www.oldsite.com,我相信,只会揭示所有网址.

或者,只需在每个404请求上提供该自定义未找到的页面!也就是说,如果有人使用了错误的链接,他会得到页面,告诉我找不到页面,并对网站的内容做了一些提示.

  • 值得注意的是,由于这会返回*文件*的列表,而不是URL,这只适用于作为静态HTML文件集合的网站.如果站点具有URL查询参数,服务器端重写的URL或任何类型的`include` /`require`/etc. 组装页面,这不会真正起作用. (14认同)
  • 考虑默认深度。https://www.gnu.org/software/wget/manual/html_node/Recursive-Retrieval-Options.html#Recursive-Retrieval-Options (3认同)
  • @alamar 是的,无限递归有“-r -l inf”,但我建议人们查看文档——很多很酷的选项!“-m”选项将镜像,我将尝试“-R.jpg,.jpeg,.gif,.png”,我认为它会跳过图像。 (2认同)

Fra*_*urt 20

以下是站点地图生成器列表(显然,您可以从中获取站点中的URL列表):http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

网站地图生成器

以下是生成或维护XML Sitemaps格式文件的工具的链接,这是一种在sitemaps.org上定义并由Ask,Google,Microsoft Live Search和Yahoo!等搜索引擎支持的开放标准.站点地图文件通常包含网站上的URL集合以及这些URL的一些元数据.以下工具通常生成"Web类型"XML站点地图和URL列表文件(有些还可能支持其他格式).

请注意:Google未测试或验证本网站上列出的第三方软件的功能或安全性.请将有关软件的任何问题直接发送给软件作者.我们希望您喜欢这些工具!

服务器端程序

  • Enarion phpSitemapsNG(PHP)
  • Google Sitemap Generator(Linux/Windows,32/64bit,开源)
  • Outil en PHP(法语,PHP)
  • Perl Sitemap生成器(Perl)
  • Python站点地图生成器(Python)
  • 简单站点地图(PHP)
  • SiteMap XML动态站点地图生成器(PHP)$
  • OS/2的站点地图生成器(REXX脚本)
  • XML Sitemap Generator(PHP)$

CMS和其他插件:

  • ASP.NET - Sitemaps.Net
  • DotClear(西班牙语)
  • DotClear(2)
  • Drupal的
  • 电子商务模板(PHP)$
  • 电子商务模板(PHP或ASP)$
  • LifeType的
  • MediaWiki Sitemap生成器
  • 例如mnoGoSearch
  • OS Commerce
  • phpWebSite
  • Plone的
  • 的RapidWeaver
  • 的Textpattern
  • vBulletin
  • Wikka Wiki(PHP)
  • WordPress的

可下载的工具

  • GSiteCrawler(Windows)
  • GWebCrawler和Sitemap Creator(Windows)
  • G-Mapper(Windows)
  • Inspyder Sitemap Creator(Windows)$
  • IntelliMapper(Windows)$
  • Microsys A1 Sitemap Generator(Windows)$
  • Rage Google Sitemap Automator $(OS-X)
  • 尖叫青蛙SEO蜘蛛和Sitemap生成器(Windows/Mac)$
  • 站点地图专业版(Windows)$
  • Sitemap Writer(Windows)$
  • DevIntelligence发布的Sitemap生成器(Windows)
  • Sorrowmans站点地图工具(Windows)
  • TheSiteMapper(Windows)$
  • Vigos Gsitemap(Windows)
  • Visual SEO Studio(Windows)
  • WebDesignPros站点地图生成器(Java Webstart应用程序)
  • Weblight(Windows/Mac)$
  • WonderWebWare站点地图生成器(Windows)

在线发电机/服务

  • AuditMyPc.com网站地图生成器
  • AutoMapIt
  • Autositemap $
  • Enarion phpSitemapsNG
  • 免费Sitemap生成器
  • Neuroticweb.com网站地图生成器
  • ROR Sitemap生成器
  • ScriptSocket Sitemap生成器
  • SeoUtility Sitemap Generator(意大利语)
  • SitemapDoc
  • Sitemapspal
  • SitemapSubmit
  • Smart-IT-Consulting Google Sitemaps XML Validator
  • XML Sitemap生成器
  • XML-Sitemaps生成器

带有集成Sitemap生成器的CMS

  • Concrete5

Google新闻站点地图生成器以下插件允许发布者更新Google新闻站点地图文件,这是我们在帮助中心中描述的sitemaps.org协议的一种变体.除了Sitemap文件的常规属性之外,Google新闻站点地图还允许发布者描述他们发布的内容类型,以及指定单个文章的访问级​​别.有关Google新闻的更多信息,请访问我们的帮助中心和帮助论坛.

  • WordPress谷歌新闻插件

代码片段/库

  • ASP脚本
  • Emacs Lisp脚本
  • Java库
  • Perl脚本
  • PHP类
  • PHP生成器脚本

如果您认为应该出于合法原因添加或删除工具,请在网站管理员帮助论坛中发表评论.

  • 有没有人提供所有网址的打印屏幕? (2认同)

Col*_*ins 6

我发现的最好的是http://www.auditmypc.com/xml-sitemap.asp,它使用Java,对页面没有限制,甚至可以将结果导出为原始URL列表.

它还使用会话,因此如果您使用的是CMS,请确保在运行爬网之前注销.

  • 听起来不错,但它已经坏了. (3认同)