标签: pdf

htmldoc当然，我试过和一些相关的表亲。但这些工具已经无可救药地处于石器时代； htmldoc根本不支持 CSS。如今，您不会发现很多 HTML 文档至少没有一些CSS 样式。我并不真正关心愚蠢的效果或小装饰，但问题是 CSS 是当今大多数布局的核心；没有多少人在使用 6 层嵌套表了。因此，如果转换工具对 CSS 一窍不通，那不仅仅是“文档看起来不太正确”的问题；它很可能根本不符合可用性的最低标准。

一些人向我建议尝试使用 Gecko 渲染引擎来生成可以转换为 PDF 的图像，但我不知道如何去做，更不用说容易了。

我相信有很好的商业工具可以做到这一点，但如果可能的话，我真的在寻找一个开源包，因为这项工作本身就是一个开源包，而且不花钱。

提前致谢！

linux pdf html

Ale*_*hov

2015 01-22

16
推荐指数

1
解决办法

2万
查看次数

想要在 Linux 上快速将 pdf 转换为 jpg

我目前正在使用 ImageMagick 将 PDF 转换为 JPEG 光栅图像。它非常缓慢并且会占用大量内存。

我使用的命令是：

convert -geometry 1024x768 -density 200 -colorspace RGB foo.pdf bar%02d.jpg

Run Code Online (Sandbox Code Playgroud)

我猜它很慢，因为它使用了 Ghostscript。 但是必须有一种更快的方法在 Linux 机器上做到这一点。

有没有人找到更好的解决方案？

pdf ghostscript imagemagick

mat*_*001

2019 01-03

11
推荐指数

4
解决办法

2万
查看次数

任何以类似于 Acrobat 的 OCR 功能的方式自动对扫描的 PDF 文件进行 OCR 的工具？

首选开源，但不是必需的。

我有 Adobe Acrobat 8，并且非常喜欢 OCR 功能，它基本上可以在扫描文档的顶部放置一个不可见的 OCR 文本层。因此，您在屏幕上看到的是原始扫描文档，但结果是可搜索的。

我正在寻找的是一种自动化这个过程的方法。我目前有一些用于处理和存档扫描文件的脚本，并且正在寻找可以直接插入到此批处理过程中的一些脚本，以类似于我可以使用 Acrobat 执行的方式执行 OCR。

欢迎大家提出建议，谢谢！

pdf document-management ocr

Bod*_*den

2015 03-30

10
推荐指数

1
解决办法

5830
查看次数

nginx 适合提供 PDF 吗？

这是一个假问题。我必须让公众访问 PDF，比如说 8 MB/文件。在我看来，nginx 将提供任何类型的文件，只要它们是静态的。但是有人告诉我 nginx 不适合这个。

你能提供一些文件来证明我/他错了吗？

nginx pdf

Elv*_*vex

2012 02-07

8
推荐指数

3
解决办法

1872
查看次数

如何在 Windows 中将非常大的 HTML 文件转换为 PDF

我们有一些非常大的 HTML 文件 (60-100 MB)，我们无法可靠地将它们转换为 PDF。

Adobe Acrobat 9 崩溃 - 达到应用程序的 2GB 限制。

Open Office 转换，但删除了一些锚点 ()。

ActivePDF webgrabber 崩溃。

使用 64 位情况是此类事情的一种选择吗？

我看到了很多选项，但它们能比 Adobe Acrobat 9 本身做得更好吗？

pdf html adobe-acrobat openoffice

Pet*_*nge

lucky-day

7
推荐指数

2
解决办法

1万
查看次数

为什么我们会看到 Apache 206 对 PDF 下载的部分响应？

在查看我们的 Apache 访问日志时，当用户从我们的服务器下载 PDF 文件时，经常（但并非总是）发生以下情况。URL 首先被请求并以状态 200（ok）和完整的回复大小发送，然后紧接着是来自同一客户端的对同一 URL 的大量请求，具有较小的回复大小和 206（部分回复）状态代码。

换句话说，一些客户端首先成功下载了整个 PDF，然后似乎又下载了大量的“块”文件。

为什么我们会看到这个？

pdf apache-2.2

作者

lucky-day

6
推荐指数

1
解决办法

4487
查看次数

如何配置 nginx 以提供 PDF 文件？

我从默认安装 nginx 开始。我对enabled-sites/default文件所做的唯一修改是：

root /home/ubuntu/www

Run Code Online (Sandbox Code Playgroud)

...我有一个网站和一个/pdf包含我的 pdf 文件的文件夹。

如果我单击 pdf 文件的链接，它会以 text/html 的形式提供，当然在浏览器窗口中看起来相当糟糕。

如果我从http://www.jeremywalworth.com/index.php?q=taxonomy/term/49添加 Jeremy 的配置部分，那么我会得到 404 的相同 pdf 文件链接。

nginx pdf

Set*_*eth

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

基于文本文件的文件准备系统

我正在寻找一个系统来准备具有以下基本特征的内部技术文件：

源文件应该是人类可读的文本文件，因此它们可以很好地与版本控制配合使用
支持基本格式（例如图像、表格、粗体等）
适用于英文和中文字符
输出到 PDF

例如，我可以让用户编写 HTML 页面并将页面打印为 PDF，但这看起来很复杂且容易出错，而且 HTML 几乎不能“人类可读”。LaTeX 也非常复杂，它有很多依赖项，可能很难处理几年前的文档。

有人有更好的建议吗？

pdf version-control document-management

pdg*_*137

lucky-day

6
推荐指数

1
解决办法

319
查看次数

标签统计

pdf ×10

document-management ×2

html ×2

nginx ×2

adobe ×1

adobe-acrobat ×1

apache-2.2 ×1

deployment ×1

dialog ×1

ghostscript ×1

imagemagick ×1

linux ×1

ocr ×1

openoffice ×1

users ×1

version-control ×1

windows ×1

标签 统计

标签统计