标签: web-crawler

将网页转换为电子书的一个文件

我想下载 HTML(例如:http ://www.brpreiss.com/books/opus6/ )并将其加入一种 HTML 或我可以在电子书阅读器上使用的其他格式。免费书籍的网站没有标准的分页,它们不是博客或论坛,所以不知道如何进行一些自动抓取和合并。

ebook web-crawler

24
推荐指数
3
解决办法
4万
查看次数

如何使用 wget 抓取仅下载 HTML 文件(忽略图像、css、js)

本质上,我想用 Wget 抓取整个网站,但我需要它永远不要下载其他资产(例如图像、CSS、JS 等)。我只想要 HTML 文件。

谷歌搜索完全没用。

这是我尝试过的命令:

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Run Code Online (Sandbox Code Playgroud)

我们的网站是混合 flat-PHP 和 CMS。所以,HTML “文件”可能是/path/to/page/path/to/page//path/to/page.php,或/path/to/page.html

我什至包括-R js,css但它仍然下载文件,然后拒绝它们(带宽、CPU 和服务器负载的无意义浪费!)。

wget web-crawler

17
推荐指数
2
解决办法
1万
查看次数

15
推荐指数
2
解决办法
1001
查看次数

使用 Wget 递归抓取站点并下载图像

您如何指示 wget 递归抓取网站并仅下载某些类型的图像?

我尝试使用它来抓取网站并且只下载 Jpeg 图像:

wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
Run Code Online (Sandbox Code Playgroud)

然而,即使 page1.html 包含数百个指向子页面的链接,这些链接本身具有指向图像的直接链接,但 wget 会报告诸如“删除 subpage13.html 因为它应该被拒绝”之类的内容,并且从不下载任何图像,因为没有一个直接链接到从起始页。

我假设这是因为我的 --accept 被用于指导抓取和过滤内容下载,而我希望它只用于指导内容下载。如何让 wget 抓取所有链接,但只下载具有某些扩展名(如 *.jpeg)的文件?

编辑:另外,有些页面是动态的,是通过 CGI 脚本生成的(例如 img.cgi?fo9s0f989wefw90e)。即使我将 cgi 添加到我的接受列表(例如 --accept=jpg,jpeg,html,cgi),这些仍然总是被拒绝。有没有解决的办法?

linux script bash wget web-crawler

14
推荐指数
1
解决办法
4万
查看次数

使用 cURL 进行站点抓取有多“合法”?

最近我正在试验 cURL,我发现它有很多可能。我构建了一个小脚本,用于抓取播放在线歌曲的音乐网站。在我的实验过程中,我发现也可以抓取歌曲源..(该站点​​不提供下载)。

我只是想知道.. 抓取网站是否完全合法?我的意思是使用http and port '80'

市场上丢失了下载管理器,它们几乎可以从所有站点下载……都是有效和合法的。

php curl web-crawler screen-scraping

12
推荐指数
1
解决办法
6562
查看次数

如何保存电报聊天/频道中的所有文件/链接?

我想保存所有 http(s) 链接和/或文件,发布到一些电报聊天(私人或群组)或频道(如邮件列表)。

我需要一个TumblOne(对于 tumblr)VkOpt(能够在 vk.com 中保存聊天记录)或jDownloader(对于文件托管)的模拟- 该程序,它将把所有聊天记录从开始到当前状态打包,找到所有网络链接,保存将它们转换为 txt 文件,找到所有附加文件(档案、电子书、音乐、视频、txt 文件、照片等)并将它们下载到选定的文件夹(直接下载,而不是从 TG 缓存中,我需要所有文件,即使我不需要) t 手动保存它,以及所有链接,即使我不阅读或删除它们的帖子)。

我尝试使用一些通用下载管理器 ( JDownloader, USDownloader, Tucan),但它们都不支持电报。也许,有一些用于此目的的离线应用程序或 TG 浏览器版本的任何爬虫?

我找到了建议使用php cli 电报客户端脚本的答案,但作者不再支持这项工作。是否有支持的、开发的类似物?我没有在alternativeto.net上找到它们。

据我所知,TG 的一些客户端(至少对于 Windows)支持自动预加载媒体和消息,也许,是否可以运行到对话开始,等待一段时间(加载所有文件)然后选择并保存所有消息并尝试从 TG 缓存中获取文件(如果没有任何其他变体)?

我在这里发布我的问题,而不是在 SoftwareRecomendations 上,不仅是因为收到有用答案的可能性更高,而且因为据我所知,没有现成的产品适合我的目的,但是也许有一些中间解决方案,例如自定义框架或 php 库。

download-manager bulk web-crawler telegram-messenger

12
推荐指数
1
解决办法
8万
查看次数

wget:从特定网站递归检索网址

我正在尝试从网站递归检索所有可能的网址(内部页面网址)。

你能帮我解决wget吗?或者有没有更好的选择来实现这一目标?我不想从网站下载任何内容,而只想获取同一个域的 url。

谢谢!

编辑

我尝试在 wget 中执行此操作,稍后再 grep outlog.txt 文件。不确定,这是否是正确的方法。但是,它有效!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'
Run Code Online (Sandbox Code Playgroud)

wget web-crawler

7
推荐指数
1
解决办法
6979
查看次数

我使用什么来从网站下载所有 PDF?

我需要下载网站上的所有 PDF 文件。问题是,它们没有列在任何页面上,所以我需要一些东西(程序?框架?)来抓取站点并下载文件,或者至少获取文件列表。我试过 WinHTTrack,但我无法让它工作。DownThemAll for Firefox 不会抓取多个页面或整个站点。我知道有一个解决方案,因为我不可能是第一个遇到这个问题的人。你会推荐什么?

pdf web-crawler

6
推荐指数
1
解决办法
2万
查看次数

是否可以发现某个 URL 的所有文件和子目录?

我想知道是否有一个软件可以用来发现给定 URL 的所有文件和子目录?

例如,给定www.some-website.com/some-directory/,我想查找/some-directory/目录中的所有文件以及 中的所有子目录(及其文件)/some-directory/

这适用于 HTTP 协议。

internet web-crawler

6
推荐指数
1
解决办法
2万
查看次数

Firefox 插件下载整个站点和多一步

您知道任何可以下载整个网站并从第一个网站上的链接下载所有网站的 Firefox 插件吗?我的意思也是所有的图像等等。

firefox web-crawler firefox-extensions

3
推荐指数
1
解决办法
2万
查看次数

如何递归地抓取文件服务器中的所有文件

文件服务器http://xxxx.com中有数千个文件

我尝试用该工具抓取它httrack

它不起作用,是否有任何替代工具可以根据网址递归下载整个文件?

谢谢

在此输入图像描述

linux web-crawler macos

1
推荐指数
1
解决办法
1508
查看次数