Ral*_*lph 6 apache-tika tika-server
Apache Tika 服务器提供 Rest API 来从文档中提取文本。还可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy. 例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
Run Code Online (Sandbox Code Playgroud)
从很多关于 tika 的不同文档中,我发现了这些记录的附加标头参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
Run Code Online (Sandbox Code Playgroud)
但似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数、哪些不支持哪些参数的文档。
例如,我想知道是否可以用以下内容覆盖 ImageType 模式或 DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
Run Code Online (Sandbox Code Playgroud)
我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?
X-Tika-OCR处理和标头的代码X-Tika-PDF是TikaResource.processHeaderConfig。
然后,这些标头后缀和值通过反射映射到TesseractOCRConfig和PDFParserConfig配置对象。
因此,要查看X-Tika可以设置哪些标头,请查找要调整内容的配置类上的选项(Tesseract或PDF),然后构建名称,然后设置标头。如果您不确定该选项的作用或它采用的值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。
例如PDF 上的setExtractInlineImages,映射到X-Tika-PDFextractInlineImages
| 归档时间: |
|
| 查看次数: |
2511 次 |
| 最近记录: |