标签: web-crawler

将网页转换为电子书的一个文件

我想下载 HTML（例如：http ://www.brpreiss.com/books/opus6/ ）并将其加入一种 HTML 或我可以在电子书阅读器上使用的其他格式。免费书籍的网站没有标准的分页，它们不是博客或论坛，所以不知道如何进行一些自动抓取和合并。

ebook web-crawler

Hrv*_*udo

lucky-day

24
推荐指数

3
解决办法

4万
查看次数

如何使用 wget 抓取仅下载 HTML 文件（忽略图像、css、js）

本质上，我想用 Wget 抓取整个网站，但我需要它永远不要下载其他资产（例如图像、CSS、JS 等）。我只想要 HTML 文件。

谷歌搜索完全没用。

这是我尝试过的命令：

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com

Run Code Online (Sandbox Code Playgroud)

我们的网站是混合 flat-PHP 和 CMS。所以，HTML “文件”可能是/path/to/page，/path/to/page/，/path/to/page.php，或/path/to/page.html。

我什至包括-R js,css但它仍然下载文件，然后拒绝它们（带宽、CPU 和服务器负载的无意义浪费！）。

wget web-crawler

Nat*_*.B.

2014 02-01

17
推荐指数

2
解决办法

1万
查看次数

为什么电子邮件地址中的@ 有时在网页上写为 [at]？

为什么 @ 有时在网页中写成 [at]？它有什么具体原因吗？

html email web spam-prevention web-crawler

Sai*_*Sai

2014 10-16

15
推荐指数

2
解决办法

1001
查看次数

使用 Wget 递归抓取站点并下载图像

您如何指示 wget 递归抓取网站并仅下载某些类型的图像？

我尝试使用它来抓取网站并且只下载 Jpeg 图像：

wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html

Run Code Online (Sandbox Code Playgroud)

然而，即使 page1.html 包含数百个指向子页面的链接，这些链接本身具有指向图像的直接链接，但 wget 会报告诸如“删除 subpage13.html 因为它应该被拒绝”之类的内容，并且从不下载任何图像，因为没有一个直接链接到从起始页。

我假设这是因为我的 --accept 被用于指导抓取和过滤内容下载，而我希望它只用于指导内容下载。如何让 wget 抓取所有链接，但只下载具有某些扩展名（如 *.jpeg）的文件？

编辑：另外，有些页面是动态的，是通过 CGI 脚本生成的（例如 img.cgi?fo9s0f989wefw90e）。即使我将 cgi 添加到我的接受列表（例如 --accept=jpg,jpeg,html,cgi），这些仍然总是被拒绝。有没有解决的办法？

linux script bash wget web-crawler

Cer*_*rin

lucky-day

14
推荐指数

1
解决办法

4万
查看次数

使用 cURL 进行站点抓取有多“合法”？

最近我正在试验 cURL，我发现它有很多可能。我构建了一个小脚本，用于抓取播放在线歌曲的音乐网站。在我的实验过程中，我发现也可以抓取歌曲源..（该站点不提供下载）。

我只是想知道.. 抓取网站是否完全合法？我的意思是使用http and port '80'，

市场上丢失了下载管理器，它们几乎可以从所有站点下载……都是有效和合法的。

php curl web-crawler screen-scraping

Che*_*rma

2010 08-23

12
推荐指数

1
解决办法

6562
查看次数

如何保存电报聊天/频道中的所有文件/链接？

我想保存所有 http(s) 链接和/或文件，发布到一些电报聊天（私人或群组）或频道（如邮件列表）。

我需要一个TumblOne（对于 tumblr）VkOpt（能够在 vk.com 中保存聊天记录）或jDownloader（对于文件托管）的模拟- 该程序，它将把所有聊天记录从开始到当前状态打包，找到所有网络链接，保存将它们转换为 txt 文件，找到所有附加文件（档案、电子书、音乐、视频、txt 文件、照片等）并将它们下载到选定的文件夹（直接下载，而不是从 TG 缓存中，我需要所有文件，即使我不需要） t 手动保存它，以及所有链接，即使我不阅读或删除它们的帖子）。

我尝试使用一些通用下载管理器 ( JDownloader, USDownloader, Tucan)，但它们都不支持电报。也许，有一些用于此目的的离线应用程序或 TG 浏览器版本的任何爬虫？

我找到了建议使用php cli 电报客户端脚本的答案，但作者不再支持这项工作。是否有支持的、开发的类似物？我没有在alternativeto.net上找到它们。

据我所知，TG 的一些客户端（至少对于 Windows）支持自动预加载媒体和消息，也许，是否可以运行到对话开始，等待一段时间（加载所有文件）然后选择并保存所有消息并尝试从 TG 缓存中获取文件（如果没有任何其他变体）？

我在这里发布我的问题，而不是在 SoftwareRecomendations 上，不仅是因为收到有用答案的可能性更高，而且因为据我所知，没有现成的产品适合我的目的，但是也许有一些中间解决方案，例如自定义框架或 php 库。

download-manager bulk web-crawler telegram-messenger

Wal*_*tes

2017 09-29

12
推荐指数

1
解决办法

8万
查看次数

wget：从特定网站递归检索网址

我正在尝试从网站递归检索所有可能的网址（内部页面网址）。

你能帮我解决wget吗？或者有没有更好的选择来实现这一目标？我不想从网站下载任何内容，而只想获取同一个域的 url。

谢谢！

编辑

我尝试在 wget 中执行此操作，稍后再 grep outlog.txt 文件。不确定，这是否是正确的方法。但是，它有效！

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

Run Code Online (Sandbox Code Playgroud)

wget web-crawler

abh*_*kar

lucky-day

7
推荐指数

1
解决办法

6979
查看次数

我使用什么来从网站下载所有 PDF？

我需要下载网站上的所有 PDF 文件。问题是，它们没有列在任何页面上，所以我需要一些东西（程序？框架？）来抓取站点并下载文件，或者至少获取文件列表。我试过 WinHTTrack，但我无法让它工作。DownThemAll for Firefox 不会抓取多个页面或整个站点。我知道有一个解决方案，因为我不可能是第一个遇到这个问题的人。你会推荐什么？

pdf web-crawler

作者

lucky-day

6
推荐指数

1
解决办法

2万
查看次数