标签: pdf-to-html

将PDF转换为HTML

将PDF文档转换为HTML格式的最佳解决方案是什么?该站点有几个PDF文档,访问者可以单击视图作为HTML,这应该在屏幕上以HTML文件的形式查看.

运行PHP,Linux,Apache的标准网站.

html php pdf pdf-to-html

20
推荐指数
1
解决办法
3万
查看次数

Ruby on Rails有什么好的PDF到HTML转换器?

我正在尝试以编程方式将PDF转换为HTML.到目前为止,我一直在使用pdftohtml,但我们的用户对结果不满意.

这就是我需要的:

  • 我正在使用Ruby on Rails,但是任何在Unix上工作的工具都可以工作,因为我可以从命令行调用它.但当然一个漂亮的宝石或插件将是完美的.

  • 我更喜欢它是开源的

  • 它需要能够处理图像

  • 如果有需要可以丢弃图像,那将是很好的

  • 它需要稳定

  • 它需要返回一个接近原始pdf布局的html(我已经尝试过pdftohtml,结果在很多情况下效果都不好)

html ruby pdf ruby-on-rails pdf-to-html

13
推荐指数
2
解决办法
1万
查看次数

使用 python 和 pdfkit 将 PDF 转换为 HTML

Adobe在此网站上写了有关使用 pdfkit 将 pdf 转换为 html 的内容

\n

他们使用pdfkit.from_pdf(...)方法。

\n
\n

此脚本使用 \xe2\x80\x98pdfkit\xe2\x80\x99 库将 PDF 文件转换为 HTML。要使用此脚本,您需要安装 \xe2\x80\x98pdfkit\xe2\x80\x99 库...

\n
\n

当我想使用这个方法时出现错误

\n
Traceback (most recent call last):\n  File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n    html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n                ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\n
Run Code Online (Sandbox Code Playgroud)\n

我该如何解决这个问题?

\n

下面是完整的脚本

\n
import pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\n
Run Code Online (Sandbox Code Playgroud)\n

python pdf-to-html pdfkit

8
推荐指数
1
解决办法
2万
查看次数

从PDF中提取表格数据

有没有一致的方法从PDF文件中提取表格?有工具吗?

到目前为止我做了什么:

  • 我试过pdftotext工具.它有一个转换为HTML布局的选项.

有什么问题:

  • 表格信息不会保留在HTML输出中
  • 我期待<table>标签,但一切都在<p>标签下.

PDF文档中是否有任何标记表示表格结构?像<table>,<tr><td>在HTML?

如果"是",任何对此的指示都会有所帮助.如果"不",关于这个事实的明确信息也是有帮助的.

pdf pdf-to-html pdftotext

7
推荐指数
2
解决办法
8527
查看次数

将pdf转换为单页可编辑的html

我一直在尝试将pdf文件转换为一个漂亮的html页面.在浏览之后.我得到的解决方案有点缺乏我的要求.因为我必须为大约200个pdf文件创建单独的html页面.因为在线转换器可能不是一个领先的解决方案.所以我尝试了以下解决方案以及未满足的要求.

  • 嵌入html5的标签

    +很好地将pdf嵌入到html页面中.

    -HTML页面不可编辑,因为它只是将pdf嵌入到html页面.

  • pdftohtml

    +将pdf转换为单个html页面.

    -看起来不是很好.

  • pdf.js

    +将pdf转换为具有可读外观的html页面.

    -HTML页面不可编辑.

  • jpdf2html

    +将pdf转换为具有漂亮外观和html css的单个html页面.

    -它创建了一个大文件夹,用于缩略图和html页面,用于pdf中的单个页面,这对于大量的pdf文件可能是不可行的.

从哪里可以改善输出..

html javascript pdf pdf-to-html pdf.js

6
推荐指数
1
解决办法
3314
查看次数

从GCP Vision PDF结果返回格式化的文本

我终于有了脚本,可以将PDF文档提交到Google Storage,然后使用Google Vision for PDF提取文本,如文档所述

数据以巨大的JSON文件返回。有一个包含测试的节点,但是不再格式化。仅有换行符用表示\n。我不太关心换行符和段落。

如何返回格式化的?是否有任何可与GCP配合使用以增强JSON输出的库?

php pdf pdf-to-html pdftotext google-vision

6
推荐指数
0
解决办法
120
查看次数

使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件

我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件,但在将 pdf 转换为 html 后我想要一个单独的 HTML 文件。

我使用了以下语法:

pdftohtml -c abc.pdf
Run Code Online (Sandbox Code Playgroud)

但它创建了 abc-1.html、abc-2.html、.... 等

我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。

谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出?

poppler pdf-to-html pdf-parsing

3
推荐指数
1
解决办法
2512
查看次数

PDFminer - 有没有办法从 pdfminer 将 pdf 转换为 html?

使用 pdfminer 将 pdf 转换为 html 的简单方法是?我见过很多这样的问题,但他们不会给我正确的答案......

我已在 ConEmu 提示符中输入以下内容:

# pdf2txt.py -o output.html -t html sample.pdf
usage: C:\Program Files\Python37-32\Scripts\pdf2txt.py [-P password] [-o output] [-t text|html|xml|tag] [-O output_dir] [-c encoding] [-s scale] [-R rotation] [-Y normal|loose|exact] [-p pagenos] [-m maxpages] [-S] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-d] input.pdf ...
Run Code Online (Sandbox Code Playgroud)

我希望这不是我应该从 pdf2txt.py 得到的响应。

有没有可以工作的代码片段?我已经尝试过这个:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import …
Run Code Online (Sandbox Code Playgroud)

python pdf pdf-to-html pdfminer

3
推荐指数
1
解决办法
1万
查看次数

PHP shell_exec,执行-rwxrwxrwx shell脚本的权限被拒绝

我目前在一个运行Apache网络服务器的远程CentOS 5.6系统上运行ssh.我需要使用poppler pdftohtml二进制文件,遗憾的是,该二进制文件当前未安装在该计算机上.所以我下载了poppler包并在我的用户文件夹下构建它.由于我不是系统管理员,我没有做

make install
Run Code Online (Sandbox Code Playgroud)

我的所有编译文件都在

/users/myfolder/poppler-0.18.2/
Run Code Online (Sandbox Code Playgroud)

我需要通过php执行的文件shell_exec()

/users/myfolder/poppler-0.18.2/utils/pdftohtml
Run Code Online (Sandbox Code Playgroud)

如果我通过ssh bash执行它,我会得到正确的输出.相反,如果我把这一行放在php脚本上:

echo shell_exec("/users/myfolder/poppler-0.18.2/utils/pdftohtml");
Run Code Online (Sandbox Code Playgroud)

我得到以下输出:

sh: /users/myfolder/poppler-0.18.2/utils/pdftohtml: Permission denied
Run Code Online (Sandbox Code Playgroud)

我尝试设置为777文件权限,目前是-rwxrwxrwx.我也注意到使用shell_exec("whoami");"apache"结果.如果文件权限是-rwxrwxrwx,apache是​​否应该能够执行脚本?

我也知道安装poppler make install会解决问题,但由于这是出于测试目的,我想避免在我的个人文件夹外"污染"系统,直到测试完成.

感谢任何有帮助的人!

php permissions poppler shell-exec pdf-to-html

2
推荐指数
1
解决办法
1万
查看次数

是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本

我正在寻找一些(最好是免费的)库,可以帮助从指定的矩形区域中提取 PDF 文本,该区域由左、上、宽和高参数指定。它应该可以在 Linux 系统上与 PHP 一起使用。你能推荐一个这样的图书馆和一个工作示例吗?

php pdf pdf-to-html pdftotext

0
推荐指数
1
解决办法
2191
查看次数