Apache Tika 服务器 - 请求标头参数？

Question

Apache Tika 服务器 - 请求标头参数？

Apache Tika 服务器提供 Rest API 来从文档中提取文本。还可以设置特定的请求标头参数，例如X-Tika-PDFOcrStrategy. 例如：

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

Run Code Online (Sandbox Code Playgroud)

从很多关于 tika 的不同文档中，我发现了这些记录的附加标头参数：

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

Run Code Online (Sandbox Code Playgroud)

但似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数、哪些不支持哪些参数的文档。

例如，我想知道是否可以用以下内容覆盖 ImageType 模式或 DPI：

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

Run Code Online (Sandbox Code Playgroud)

我的问题是：支持哪些标头参数以及这些参数遵循哪些命名约定？

Answer 1

Gag*_*arr 6

X-Tika-OCR处理和标头的代码X-Tika-PDF是TikaResource.processHeaderConfig。

然后，这些标头后缀和值通过反射映射到TesseractOCRConfig和PDFParserConfig配置对象。

因此，要查看X-Tika可以设置哪些标头，请查找要调整内容的配置类上的选项（Tesseract或PDF），然后构建名称，然后设置标头。如果您不确定该选项的作用或它采用的值，请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如PDF 上的setExtractInlineImages，映射到X-Tika-PDFextractInlineImages

归档时间：	5 年，7 月前
查看次数：	2511 次
最近记录：	5 年，7 月前