如何使用 Apache Tika 获取 PDF 中元素的样式信息?

She*_*har 5 pdf pdfbox apache-tika

我正在使用 Apache Tika 从 PDF 文件中提取文本。我想知道如何使用 Apache Tika 获取样式信息,例如字体大小、文本颜色、特定文本(几个单词)是否为斜体、粗体等?

是否有可能获得此类信息?

我还想知道是否可以使用 Apache Tika 获取表信息?表格开始、第一行开始、第一个单元格等信息。

yea*_*amf 3

使用其他 api(例如PDFTextStream )可能更方便。Tika 从 pdf 中提取原始文本信息,而PDFTextStream为您提供带有相关信息的结构化文本,例如字符编码、高度、文本区域等。