将网页转换为电子书的一个文件

Hrv*_*udo 24 ebook web-crawler

我想下载 HTML(例如:http ://www.brpreiss.com/books/opus6/ )并将其加入一种 HTML 或我可以在电子书阅读器上使用的其他格式。免费书籍的网站没有标准的分页,它们不是博客或论坛,所以不知道如何进行一些自动抓取和合并。

Mr *_*pha 14

您可以使用Calibre满足您的电子书转换需求。您可以通过从您设置为目录的单个 HTML 文件链接到多个 HTML 文件来制作单个电子书,就像这样

  • 我的过程是(使用 Chrome)使用 Instapaper Text bookmarklet 清理一下,然后右键单击 -> 另存为,选择另存为单个网页,仅 HTML,然后在 Calibre 中打开它,转换为 EPub,然后使用 Edit Book 功能来整理被拉进来的任何额外的杂乱标记。 (3认同)

小智 8

我过去使用的方法是 Calibre。

但这变得太痛苦了,所以我构建了一个 Chrome 扩展程序以使其更容易。

它被称为 EpubPress ( http://epub.press )。

它允许您从 Chrome 标签页构建电子书。

希望有帮助!

  • 您链接中的网站表明打包发生在第 3 方服务器上,此方法不能保证隐私。 (4认同)

小智 7

Pandoc可以获取指向页面(或 html 文件)的链接并将其转换为 pdf/epub ...

我不确定它是否会爬行。如果没有,您可以先使用wget或其他东西(或仅收集链接)抓取页面并将其提供给 pandoc。