小编Vey*_*mir的帖子

如何在 Solr 中为 TikaEntityProcessor 配置 Tesseract 语言

我有一个 solr 核心,我在 DataImportHandler 中使用 TikaEntityProcessor。
我安装了 tesseract,tika 可以从图像中提取文本。但默认语言是英语。

这是我的 data-import-handler.xml 文件的 tika 部分

<entity processor="TikaEntityProcessor" dataSource="fileDataSource" 
name="file_content" 
url="${item.FilePath}" 
format="text" transformer="TemplateTransformer" 
onError='skip'>
    <field column="text" name="content" />
    <field column="title" meta="true" name="title" />
    <field column="subject" meta="true" name="subject" />
    <field column="description" meta="true" name="description" />
    <field column="Author" meta="true" name="author" />
    <field column="category" meta="true" name="category" />
    <field column="content_type" meta="true" name="content_type" />
    <field column="last_modified" meta="true" name="last_modified" />
</entity>
Run Code Online (Sandbox Code Playgroud)

我在 tesseract 的 tessdata 文件夹中也有 tur.traineddata 和 rus.traineddata,并且我想使用土耳其语作为默认 ocr 语言。我怎样才能做到这一点 ?

solr tesseract apache-tika

5
推荐指数
0
解决办法
336
查看次数

标签 统计

apache-tika ×1

solr ×1

tesseract ×1