相关疑难解决方法(0)

将语言配置文件添加到Apache Tika

可以取悦任何设法做到这一点的人解释如何做到这一点:-)

我是否需要获取我需要添加的语言的n-gram文件?

这是创建tika.language.override.properties,添加一些其他lang代码并在classPath上添加lang-code.ngp n-gram文件的问题?在那种情况下,我在哪里得到它以及为什么Tika不支持更多语言,如果只是这个问题?

目前支持语言检测的这些语言

da,de,et,el,en,es,fi,fr,hu,is,it,lt,nl,no,pl,pt,ru,sv,th
Run Code Online (Sandbox Code Playgroud)

和tika使用传统的n-gram表示法

er_ 132232
_de 103517
en_ 82666
et_ 80661
for 65286
_fo 57945
de_ 51382
der 44049
at_ 41915
det 41381
_og 40344
_at 39482
ing 38707
den 36795
og_ 36577
_me 34924
nde 34528
Run Code Online (Sandbox Code Playgroud)

这个lang检测应用程序目前支持这些语言,但有一些不同的n-gram文件

af  bg  cs  de  en  fa  fr  he  hr  id  ja  ko  ml  ne  no  pl  ro  sk  sq  sw   te  tl  uk   vi     zh-tw ar  bn  da  el  es  fi   gu  hi  hu …
Run Code Online (Sandbox Code Playgroud)

java language-detection apache-tika

7
推荐指数
1
解决办法
1559
查看次数

标签 统计

apache-tika ×1

java ×1

language-detection ×1