小编shi*_*ngh的帖子

使用 Python 模块将 PDF 转为 XML/json

我可以使用代码从 pdf 中读取文本:

import pdfx
pdf = pdfx.PDFx("1951.pdf")
metadata = pdf.get_metadata()
reference_list = pdf.get_references()
reference_dict = pdf.get_references_as_dict()
pdf.download_pdfs("D:/")
pdf.get_text()
Run Code Online (Sandbox Code Playgroud)

但无法将其转换为json:

pdfx -d D:/Output/ -j -o output.json pdf
SyntaxError: invalid syntax
Run Code Online (Sandbox Code Playgroud)

语法:pdfx [-h] [-d OUTPUT_DIRECTORY] [-c] [-j] [-v] [-t] [-o OUTPUT_FILE] [--version] pdf

python

1
推荐指数
1
解决办法
2万
查看次数

标签 统计

python ×1