Python - Apache Tika 单页解析器

Question

Python - Apache Tika 单页解析器

sha*_*arp 4 python apache-tika tika-server

我想知道是否有任何方法可以使用 Tika/Python 仅解析第一页或仅从第一页提取元数据？现在，当我传递 pdf 时，它正在解析每一页。我看了这个链接：Is it possible to extract text by page for word/pdf files using Apache Tika? 但是，这个链接在java中解释了更多，我不熟悉。我希望可以有一个python解决方案吗？谢谢！

from tika import parser
# running: java -jar tika-server1.18.jar before executing code below. 
parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf')

fulltext = parsedPDF['content']

metadata_dict = parsedPDF['metadata']
title = metadata_dict['title']
author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page 
pages = metadata_dict['xmpTPg:NPages']

Run Code Online (Sandbox Code Playgroud)

Answer 1

Sam*_*men 10

感谢您提供这些信息，真的很有帮助。这是我逐页检索内容的代码（有点脏，但它有效）：

    raw_xml = parser.from_file(file, xmlContent=True)
    body = raw_xml['content'].split('<body>')[1].split('</body>')[0]
    body_without_tag = body.replace("<p>", "").replace("</p>", "").replace("<div>", "").replace("</div>","").replace("<p />","")
    text_pages = body_without_tag.split("""<div class="page">""")[1:]
    num_pages = len(text_pages)
    if num_pages==int(raw_xml['metadata']['xmpTPg:NPages']) : #check if it worked correctly
         return text_pages

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，4 月前
查看次数：	6019 次
最近记录：	5 年，5 月前