Jac*_*ley 3 wordpress blogger blogspot
假设无法直接访问api。由于我要求所有帖子,因此我不确定RSS是否会有所帮助。
我考虑了一个简单的系统,该系统每年和每个月都会循环并下载每个html文件,但会更改每年每个月对的以下URL。这适用于wordpress和blogger博客。
http://www.lostincheeseland.com/2011/05
Run Code Online (Sandbox Code Playgroud)
但是,有没有一种方法可以使用博客提供的以下搜索功能来返回所有博客?我玩过它,但是文档似乎很少。
http://www.lostincheeseland.com/search?updated-max=2012-08-17T09:44:00%2B02:00&max-results=6
Run Code Online (Sandbox Code Playgroud)
我还没有考虑其他方法吗?
您正在寻找的是站点地图。
首先,您正在编写一个机器人,因此检查博客的robots.txt文件是一种很好的方式。瞧,您经常会在其中找到一个站点地图。这是Google博客的示例:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://googleblog.blogspot.com/feeds/posts/default?orderby=UPDATED
Run Code Online (Sandbox Code Playgroud)
在这种情况下,您可以访问站点地图URL以获取xml站点地图。
对于Wordpress,同样适用,但它不是标准内置的,因此并非所有博客都拥有。看看这个插件,这是在Wordpress中创建这些站点地图的最流行的方法。例如,我的博客使用此网址,您可以在/sitemap.xml (标准位置)中找到站点地图。
简而言之:
另外: 成为一个好的互联网公民!如果您要编写机器人,请确保它遵循robots.txt文件(例如blogspot明确告诉您不要使用/search!的地方)。
| 归档时间: |
|
| 查看次数: |
3070 次 |
| 最近记录: |