相关疑难解决方法(0)

使用PDFBox从PDF文档中读取特定页面

如何使用PDFBox从PDF文档中读取特定页面(给定页码)?

java pdf pdfbox

18
推荐指数
2
解决办法
5万
查看次数

Python - Apache Tika 单页解析器

我想知道是否有任何方法可以使用 Tika/Python 仅解析第一页或仅从第一页提取元数据?现在,当我传递 pdf 时,它正在解析每一页。我看了这个链接:Is it possible to extract text by page for word/pdf files using Apache Tika? 但是,这个链接在java中解释了更多,我不熟悉。我希望可以有一个python解决方案吗?谢谢!

from tika import parser
# running: java -jar tika-server1.18.jar before executing code below. 
parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf')

fulltext = parsedPDF['content']

metadata_dict = parsedPDF['metadata']
title = metadata_dict['title']
author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page 
pages = metadata_dict['xmpTPg:NPages']
Run Code Online (Sandbox Code Playgroud)

python apache-tika tika-server

4
推荐指数
1
解决办法
6019
查看次数

标签 统计

apache-tika ×1

java ×1

pdf ×1

pdfbox ×1

python ×1

tika-server ×1