从博客(wordpress或博客)获取所有帖子

Jac*_*ley 3 wordpress blogger blogspot

假设无法直接访问api。由于我要求所有帖子,因此我不确定RSS是否会有所帮助。

我考虑了一个简单的系统,该系统每年和每个月都会循环并下载每个html文件,但会更改每年每个月对的以下URL。这适用于wordpress和blogger博客。

http://www.lostincheeseland.com/2011/05    
Run Code Online (Sandbox Code Playgroud)

但是,有没有一种方法可以使用博客提供的以下搜索功能来返回所有博客?我玩过它,但是文档似乎很少。

http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6
Run Code Online (Sandbox Code Playgroud)

我还没有考虑其他方法吗?

ide*_*lum 5

您正在寻找的是站点地图

首先,您正在编写一个机器人,因此检查博客的robots.txt文件是一种很好的方式。瞧,您经常会在其中找到一个站点地图。这是Google博客的示例:

User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED
Run Code Online (Sandbox Code Playgroud)

在这种情况下,您可以访问站点地图URL以获取xml站点地图。

对于Wordpress,同样适用,但它不是标准内置的,因此并非所有博客都拥有。看看这个插件,这是在Wordpress中创建这些站点地图的最流行的方法。例如,我的博客使用此网址,您可以在/sitemap.xml (标准位置)中找到站点地图。

简而言之:

  • 检查robots.txt
  • 遵循Sitemap网址(如果存在)
  • 否则,请检查/sitemap.xml

另外: 成为一个好的互联网公民!如果您要编写机器人,请确保它遵循robots.txt文件(例如blogspot明确告诉您不要使用/search!的地方)。