用于从网站下载所有.pdf文件的Python/Java脚本

Question

我想知道是否有可能编写一个脚本,可以通过编程方式遍历整个网页并自动下载所有.pdf文件链接.在我开始尝试之前,我想知道这是否可行.

问候

Answer 1

是的,这是可能的.下载pdf文件你甚至不需要使用Beautiful Soup或Scrapy.

从python下载非常简单构建所有linkpdf链接的列表并下载它们

如果你需要浏览几个链接的页面,那么其中一个框架可能会有所帮助如果你愿意在这里构建一个很好的教程,那么btw也是一个很好的Python介绍. https://www.udacity.com/course/viewer#!/c-cs101

Answer 2

是的可能.

在python中它很简单; urllib将帮助您从网上下载文件.例如:

import urllib
urllib.url_retrive("http://example.com/helo.pdf","c://home")

现在你需要创建一个脚本,找到以.pdf结尾的链接.

您需要下载html页面并使用htmlparser或使用正则表达式.