use*_*727 9 python urllib2 beautifulsoup tumblr
我说看下面的Tumblr帖子:http
://ronbarak.tumblr.com/post/40692813 ...
它(目前)有292个音符.
我想使用Python脚本(例如,通过urllib2,BeautifulSoup,simplejson或tumblr Api)获取上述所有注释.一些广泛的谷歌搜索没有产生任何与Tumblr中的笔记提取相关的项目.
任何人都可以指出我在哪个工具上让我这样做的正确方向?
不幸的是,看起来Tumblr API有一些限制(缺少关于Reblogs的元信息,注释限制为50),所以你无法获得所有笔记.
根据服务条款,禁止进行页面抓取.
"访问或使用服务时,您不得执行以下任何操作:( ......)在未经Tumblr事先明确书面同意的情况下,从服务中删除服务,特别是删除内容(如下定义);"
资源:
https://groups.google.com/forum/?fromgroups=#!topic/tumblr-api/ktfMIdJCOmc
如果没有JS,您将获得仅包含注释的单独页面.对于上述博客文章,第一页将是:
以下页面链接在底部,例如:
(请参阅我的答案,了解如何在a
's onclick
属性中查找下一个URL.)
现在您可以使用各种工具下载/解析数据.
以下wget命令应下载该帖子的所有备注页面:
wget --recursive --domains=ronbarak.tumblr.com --include-directories=notes http://ronbarak.tumblr.com/notes/40692813320/4Y70Zzacy
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
11224 次 |
最近记录: |