标签: pdf-to-html

Traceback (most recent call last):\n  File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n    html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n                ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\n

Run Code Online (Sandbox Code Playgroud)\n

我该如何解决这个问题？

下面是完整的脚本

import pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\n

Run Code Online (Sandbox Code Playgroud)\n

python pdf-to-html pdfkit

Duz*_*uzy

2023 04-19

8
推荐指数

1
解决办法

2万
查看次数

从PDF中提取表格数据

有没有一致的方法从PDF文件中提取表格？有工具吗？

到目前为止我做了什么:

我试过pdftotext工具.它有一个转换为HTML布局的选项.

有什么问题:

表格信息不会保留在HTML输出中
我期待<table>标签,但一切都在<p>标签下.

PDF文档中是否有任何标记表示表格结构？像<table>,<tr>并<td>在HTML？

如果"是",任何对此的指示都会有所帮助.如果"不",关于这个事实的明确信息也是有帮助的.

pdf pdf-to-html pdftotext

Raj*_*esh

2015 01-14

7
推荐指数

2
解决办法

8527
查看次数

将pdf转换为单页可编辑的html

我一直在尝试将pdf文件转换为一个漂亮的html页面.在浏览之后.我得到的解决方案有点缺乏我的要求.因为我必须为大约200个pdf文件创建单独的html页面.因为在线转换器可能不是一个领先的解决方案.所以我尝试了以下解决方案以及未满足的要求.

嵌入html5的标签

+很好地将pdf嵌入到html页面中.

-HTML页面不可编辑,因为它只是将pdf嵌入到html页面.
pdftohtml

+将pdf转换为单个html页面.

-看起来不是很好.
pdf.js

+将pdf转换为具有可读外观的html页面.

-HTML页面不可编辑.
jpdf2html

+将pdf转换为具有漂亮外观和html css的单个html页面.

-它创建了一个大文件夹,用于缩略图和html页面,用于pdf中的单个页面,这对于大量的pdf文件可能是不可行的.

从哪里可以改善输出..

html javascript pdf pdf-to-html pdf.js

NJI*_*dar

2017 05-23

6
推荐指数

1
解决办法

3314
查看次数

从GCP Vision PDF结果返回格式化的文本

我终于有了脚本，可以将PDF文档提交到Google Storage，然后使用Google Vision for PDF提取文本，如文档所述。

数据以巨大的JSON文件返回。有一个包含测试的节点，但是不再格式化。仅有换行符用表示\n。我不太关心换行符和段落。

如何返回格式化的？是否有任何可与GCP配合使用以增强JSON输出的库？

php pdf pdf-to-html pdftotext google-vision

san*_*nta

lucky-day

6
推荐指数

0
解决办法

120
查看次数

使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件

我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件，但在将 pdf 转换为 html 后我想要一个单独的 HTML 文件。

我使用了以下语法：

pdftohtml -c abc.pdf

Run Code Online (Sandbox Code Playgroud)

但它创建了 abc-1.html、abc-2.html、.... 等

我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。

谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出？

poppler pdf-to-html pdf-parsing

Dee*_*ade

lucky-day

3
推荐指数

1
解决办法

2512
查看次数

PDFminer - 有没有办法从 pdfminer 将 pdf 转换为 html？

使用 pdfminer 将 pdf 转换为 html 的简单方法是？我见过很多这样的问题，但他们不会给我正确的答案......

我已在 ConEmu 提示符中输入以下内容：

# pdf2txt.py -o output.html -t html sample.pdf
usage: C:\Program Files\Python37-32\Scripts\pdf2txt.py [-P password] [-o output] [-t text|html|xml|tag] [-O output_dir] [-c encoding] [-s scale] [-R rotation] [-Y normal|loose|exact] [-p pagenos] [-m maxpages] [-S] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-d] input.pdf ...

Run Code Online (Sandbox Code Playgroud)

我希望这不是我应该从 pdf2txt.py 得到的响应。

有没有可以工作的代码片段？我已经尝试过这个：

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import …

Run Code Online (Sandbox Code Playgroud)

python pdf pdf-to-html pdfminer

Whi*_*mer

2020 12-31

3
推荐指数

1
解决办法

1万
查看次数

PHP shell_exec,执行-rwxrwxrwx shell脚本的权限被拒绝

我目前在一个运行Apache网络服务器的远程CentOS 5.6系统上运行ssh.我需要使用poppler pdftohtml二进制文件,遗憾的是,该二进制文件当前未安装在该计算机上.所以我下载了poppler包并在我的用户文件夹下构建它.由于我不是系统管理员,我没有做

make install

Run Code Online (Sandbox Code Playgroud)

我的所有编译文件都在

/users/myfolder/poppler-0.18.2/

Run Code Online (Sandbox Code Playgroud)

我需要通过php执行的文件shell_exec()是

/users/myfolder/poppler-0.18.2/utils/pdftohtml

Run Code Online (Sandbox Code Playgroud)

如果我通过ssh bash执行它,我会得到正确的输出.相反,如果我把这一行放在php脚本上:

echo shell_exec("/users/myfolder/poppler-0.18.2/utils/pdftohtml");

Run Code Online (Sandbox Code Playgroud)

我得到以下输出:

sh: /users/myfolder/poppler-0.18.2/utils/pdftohtml: Permission denied

Run Code Online (Sandbox Code Playgroud)

我尝试设置为777文件权限,目前是-rwxrwxrwx.我也注意到使用shell_exec("whoami");"apache"结果.如果文件权限是-rwxrwxrwx,apache是否应该能够执行脚本？

我也知道安装poppler make install会解决问题,但由于这是出于测试目的,我想避免在我的个人文件夹外"污染"系统,直到测试完成.

感谢任何有帮助的人!

php permissions poppler shell-exec pdf-to-html

And*_*ega

2014 03-04

2
推荐指数

1
解决办法

1万
查看次数

是否有任何库可以帮助从可与 PHP 一起使用的矩形区域中提取 pdf 中的文本

我正在寻找一些（最好是免费的）库，可以帮助从指定的矩形区域中提取 PDF 文本，该区域由左、上、宽和高参数指定。它应该可以在 Linux 系统上与 PHP 一起使用。你能推荐一个这样的图书馆和一个工作示例吗？

php pdf pdf-to-html pdftotext

Rao*_*har

lucky-day

0
推荐指数

1
解决办法

2191
查看次数

标签统计

pdf-to-html ×10

pdf ×7

php ×4

html ×3

pdftotext ×3

poppler ×2

python ×2

google-vision ×1

javascript ×1

pdf-parsing ×1

pdf.js ×1

pdfkit ×1

pdfminer ×1

permissions ×1

ruby ×1

ruby-on-rails ×1

shell-exec ×1

标签 统计

标签统计