Apache Tika 服务器 - 请求标头参数?

Ral*_*lph 6 apache-tika tika-server

Apache Tika 服务器提供 Rest API 来从文档中提取文本。还可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy. 例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
Run Code Online (Sandbox Code Playgroud)

从很多关于 tika 的不同文档中,我发现了这些记录的附加标头参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
Run Code Online (Sandbox Code Playgroud)

但似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数、哪些不支持哪些参数的文档。

例如,我想知道是否可以用以下内容覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
Run Code Online (Sandbox Code Playgroud)

我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?

Gag*_*arr 6

X-Tika-OCR处理和标头的代码X-Tika-PDFTikaResource.processHeaderConfig

然后,这些标头后缀和值通过反射映射到TesseractOCRConfigPDFParserConfig配置对象。

因此,要查看X-Tika可以设置哪些标头,请查找要调整内容的配置类上的选项(TesseractPDF),然后构建名称,然后设置标头。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如PDF 上的setExtractInlineImages,映射到X-Tika-PDFextractInlineImages