将 PDF 转换为 HTML，保持布局

Question

将 PDF 转换为 HTML，保持布局

有哪些方法可以将 PDF 转换为 HTML？它可以是任何东西——在线服务、软件、图书馆。（首选开源。在后一种情况下，首选 php 或 python。）它必须保留原始布局（包括页码、脚注等），保留图像（可以将它们组合为每页一个背景图像）并保留链接。它最好应该输出有效的 XHTML 并清理 PDF 功能（例如连字），但如果需要一些后处理，我可以接受。具有干净、相对语义的 HTML 输出的东西会很棒。

我发现的最接近的一个是zamzar.org，但它因链接而堵塞。（此外，HTML 输出是一堆丑陋的绝对定位的 div，并且由于编码问题需要进行后处理。）

Answer 1

Mar*_*oma 5

我知道两个选择。两者在视觉上看起来非常相似，但输出肯定不是语义的。

Python：PyMuPDF

安装 PyMuPDF：pip install pymupdf

import fitz

def to_html(filepath: str):
    doc = fitz.open(filepath)
    for i, page in enumerate(doc):
        text = page.getText("html")
        with open(f"pymupdf-page-{i}.html", "w") as fp:
            fp.write(text)
    doc.close()

Run Code Online (Sandbox Code Playgroud)

pdf转html

在 debian 源代码中（这个）

pdftohtml -c

Run Code Online (Sandbox Code Playgroud)

归档时间：	15 年，6 月前
查看次数：	7736 次
最近记录：	5 年，2 月前