将 PDF 转换为 HTML,保持布局

Tgr*_*Tgr 4 html pdf

有哪些方法可以将 PDF 转换为 HTML?它可以是任何东西——在线服务、软件、图书馆。(首选开源。在后一种情况下,首选 php 或 python。)它必须保留原始布局(包括页码、脚注等),保留图像(可以将它们组合为每页一个背景图像)并保留链接。它最好应该输出有效的 XHTML 并清理 PDF 功能(例如连字),但如果需要一些后处理,我可以接受。具有干净、相对语义的 HTML 输出的东西会很棒。

我发现的最接近的一个是zamzar.org,但它因链接而堵塞。(此外,HTML 输出是一堆丑陋的绝对定位的 div,并且由于编码问题需要进行后处理。)

Mar*_*oma 5

我知道两个选择。两者在视觉上看起来非常相似,但输出肯定不是语义的。

Python:PyMuPDF

安装 PyMuPDF:pip install pymupdf

import fitz

def to_html(filepath: str):
    doc = fitz.open(filepath)
    for i, page in enumerate(doc):
        text = page.getText("html")
        with open(f"pymupdf-page-{i}.html", "w") as fp:
            fp.write(text)
    doc.close()
Run Code Online (Sandbox Code Playgroud)

pdf转html

在 debian 源代码中(这个

pdftohtml -c
Run Code Online (Sandbox Code Playgroud)