我需要抓取来自YouTube的PSY江南风格视频的所有评论(超过2,600,000条评论,超过5000页),请参阅:http: //www.youtube.com/all_comments?v = 9bZkp7q19f0
问题是:
1)如果我使用gdata服务,谷歌只提供不超过1000个评论供稿
2)如果我直接抓取html标签:
site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))
Run Code Online (Sandbox Code Playgroud)
通过增加页面参数,它将在页面#101之后失败,其中页面上没有显示注释.
那么请大家,我怎样才能解决这个问题呢?
PS:我的抓取工具使用javascript实现为chrome扩展,它会检查已加载页面的注释标记,然后加载下一页.