如何将PDF转换为HTML?

Luc*_*ore 20 html pdf file-conversion

是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式?

我搜索了类似的问题,但没有运气.

我希望能够从PDF中提取文本,可能是图像.我不打算将PDF嵌入HTML中.

Sid*_*out 8

就像我在上面的评论中提到的那样,使用可以从这里下载的工具Able2Extract7将pdf转换为html绝对是可能的.

我已经使用这个工具差不多2年了,我很高兴.此工具允许您将PDF转换为Word,Excel,PowerPoint,Publisher,HTML,OO等.请参阅屏幕截图

在此输入图像描述

Imp注意:此工具不是免费软件.

HTH

  • 为什么 stackoverflow 上对这个问题的每个回答几乎都像是付费解决方案的广告? (2认同)

moo*_*f2k 6

如果您使用的是Linux,请尝试pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
Run Code Online (Sandbox Code Playgroud)

开源电子书转换器Calibre还可以将PDF文件转换为HTML,并且可以在MacOS,Windows和Linux上使用。

  • 请注意,所有布局都将消失。 (2认同)
  • @chovy Supply -dataurls 选项生成内联图像,供给 -c 生成复杂的 html,每个 pdf 页面位于单独的 html 页面上,页面布局或多或少相同,我注意到每个页面上的图像以及框和其他装饰生成为用作背景的图像,同时提取文本并显示在背景图像前面,使布局或多或少相同,有一些轻微的重叠,但是,结果非常有趣,示例使用: pdftohtml -dataurls -c pdf_file_with_bookmarks.pdf 样本_输出.html (2认同)