我正在使用Apache PDFBox来读取具有由书签定义的层次结构的PDF文档.层次结构采用树形式,内容仅在叶级别.
使用以下代码在两个叶级书签之间提取文本:
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()),
Run Code Online (Sandbox Code Playgroud)
而是返回整个页面中的文本.简而言之,我的问题类似于此主题中提到的问题.
有没有办法在两个书签之间提取内容?
如果是这样,我的代码应该改变什么?
我猜测您的书签不包含正确的数据。
听起来您使用的书签仅指向内容开始的页面,而不是页面上的位置。
以下是包含位置数据的书签示例:
<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>
Run Code Online (Sandbox Code Playgroud)