将PDF文档转换为HTML格式的最佳解决方案是什么?该站点有几个PDF文档,访问者可以单击视图作为HTML,这应该在屏幕上以HTML文件的形式查看.
运行PHP,Linux,Apache的标准网站.
我正在尝试以编程方式将PDF转换为HTML.到目前为止,我一直在使用pdftohtml,但我们的用户对结果不满意.
这就是我需要的:
我正在使用Ruby on Rails,但是任何在Unix上工作的工具都可以工作,因为我可以从命令行调用它.但当然一个漂亮的宝石或插件将是完美的.
我更喜欢它是开源的
它需要能够处理图像
如果有需要可以丢弃图像,那将是很好的
它需要稳定
它需要返回一个接近原始pdf布局的html(我已经尝试过pdftohtml,结果在很多情况下效果都不好)
Adobe在此网站上写了有关使用 pdfkit 将 pdf 转换为 html 的内容
\n他们使用pdfkit.from_pdf(...)方法。
\n\n此脚本使用 \xe2\x80\x98pdfkit\xe2\x80\x99 库将 PDF 文件转换为 HTML。要使用此脚本,您需要安装 \xe2\x80\x98pdfkit\xe2\x80\x99 库...
\n
当我想使用这个方法时出现错误
\nTraceback (most recent call last):\n File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\nRun Code Online (Sandbox Code Playgroud)\n我该如何解决这个问题?
\n下面是完整的脚本
\nimport pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\nRun Code Online (Sandbox Code Playgroud)\n 有没有一致的方法从PDF文件中提取表格?有工具吗?
到目前为止我做了什么:
pdftotext工具.它有一个转换为HTML布局的选项.有什么问题:
<table>标签,但一切都在<p>标签下.PDF文档中是否有任何标记表示表格结构?像<table>,<tr>并<td>在HTML?
如果"是",任何对此的指示都会有所帮助.如果"不",关于这个事实的明确信息也是有帮助的.
我一直在尝试将pdf文件转换为一个漂亮的html页面.在浏览之后.我得到的解决方案有点缺乏我的要求.因为我必须为大约200个pdf文件创建单独的html页面.因为在线转换器可能不是一个领先的解决方案.所以我尝试了以下解决方案以及未满足的要求.
+很好地将pdf嵌入到html页面中.
-HTML页面不可编辑,因为它只是将pdf嵌入到html页面.
+将pdf转换为单个html页面.
-看起来不是很好.
+将pdf转换为具有可读外观的html页面.
-HTML页面不可编辑.
+将pdf转换为具有漂亮外观和html css的单个html页面.
-它创建了一个大文件夹,用于缩略图和html页面,用于pdf中的单个页面,这对于大量的pdf文件可能是不可行的.
从哪里可以改善输出..
我终于有了脚本,可以将PDF文档提交到Google Storage,然后使用Google Vision for PDF提取文本,如文档所述。
数据以巨大的JSON文件返回。有一个包含测试的节点,但是不再格式化。仅有换行符用表示\n。我不太关心换行符和段落。
如何返回格式化的?是否有任何可与GCP配合使用以增强JSON输出的库?
我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件,但在将 pdf 转换为 html 后我想要一个单独的 HTML 文件。
我使用了以下语法:
pdftohtml -c abc.pdf
Run Code Online (Sandbox Code Playgroud)
但它创建了 abc-1.html、abc-2.html、.... 等
我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。
谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出?
使用 pdfminer 将 pdf 转换为 html 的简单方法是?我见过很多这样的问题,但他们不会给我正确的答案......
我已在 ConEmu 提示符中输入以下内容:
# pdf2txt.py -o output.html -t html sample.pdf
usage: C:\Program Files\Python37-32\Scripts\pdf2txt.py [-P password] [-o output] [-t text|html|xml|tag] [-O output_dir] [-c encoding] [-s scale] [-R rotation] [-Y normal|loose|exact] [-p pagenos] [-m maxpages] [-S] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin] [-W word_margin] [-F boxes_flow] [-d] input.pdf ...
Run Code Online (Sandbox Code Playgroud)
我希望这不是我应该从 pdf2txt.py 得到的响应。
有没有可以工作的代码片段?我已经尝试过这个:
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import …Run Code Online (Sandbox Code Playgroud) 我目前在一个运行Apache网络服务器的远程CentOS 5.6系统上运行ssh.我需要使用poppler pdftohtml二进制文件,遗憾的是,该二进制文件当前未安装在该计算机上.所以我下载了poppler包并在我的用户文件夹下构建它.由于我不是系统管理员,我没有做
make install
Run Code Online (Sandbox Code Playgroud)
我的所有编译文件都在
/users/myfolder/poppler-0.18.2/
Run Code Online (Sandbox Code Playgroud)
我需要通过php执行的文件shell_exec()是
/users/myfolder/poppler-0.18.2/utils/pdftohtml
Run Code Online (Sandbox Code Playgroud)
如果我通过ssh bash执行它,我会得到正确的输出.相反,如果我把这一行放在php脚本上:
echo shell_exec("/users/myfolder/poppler-0.18.2/utils/pdftohtml");
Run Code Online (Sandbox Code Playgroud)
我得到以下输出:
sh: /users/myfolder/poppler-0.18.2/utils/pdftohtml: Permission denied
Run Code Online (Sandbox Code Playgroud)
我尝试设置为777文件权限,目前是-rwxrwxrwx.我也注意到使用shell_exec("whoami");"apache"结果.如果文件权限是-rwxrwxrwx,apache是否应该能够执行脚本?
我也知道安装poppler make install会解决问题,但由于这是出于测试目的,我想避免在我的个人文件夹外"污染"系统,直到测试完成.
感谢任何有帮助的人!
我正在寻找一些(最好是免费的)库,可以帮助从指定的矩形区域中提取 PDF 文本,该区域由左、上、宽和高参数指定。它应该可以在 Linux 系统上与 PHP 一起使用。你能推荐一个这样的图书馆和一个工作示例吗?
pdf-to-html ×10
pdf ×7
php ×4
html ×3
pdftotext ×3
poppler ×2
python ×2
javascript ×1
pdf-parsing ×1
pdf.js ×1
pdfkit ×1
pdfminer ×1
permissions ×1
ruby ×1
shell-exec ×1