如何从Python中查看Tumblr帖子的所有注释？

Question

我说看下面的Tumblr帖子:http ://ronbarak.tumblr.com/post/40692813 ...
它(目前)有292个音符.

我想使用Python脚本(例如,通过urllib2,BeautifulSoup,simplejson或tumblr Api)获取上述所有注释.一些广泛的谷歌搜索没有产生任何与Tumblr中的笔记提取相关的项目.

任何人都可以指出我在哪个工具上让我这样做的正确方向？

Answer 1

不幸的是,看起来Tumblr API有一些限制(缺少关于Reblogs的元信息,注释限制为50),所以你无法获得所有笔记.

根据服务条款,禁止进行页面抓取.

"访问或使用服务时,您不得执行以下任何操作:( ......)在未经Tumblr事先明确书面同意的情况下,从服务中删除服务,特别是删除内容(如下定义);"

资源:

Answer 2

如果没有JS,您将获得仅包含注释的单独页面.对于上述博客文章,第一页将是:

http://ronbarak.tumblr.com/notes/40692813320/4Y70Zzacy

以下页面链接在底部,例如:

现在您可以使用各种工具下载/解析数据.

以下wget命令应下载该帖子的所有备注页面:

wget --recursive --domains=ronbarak.tumblr.com --include-directories=notes http://ronbarak.tumblr.com/notes/40692813320/4Y70Zzacy