小编Spa*_*on_的帖子

Elasticsearch:如何列出特定索引使用的每个分析器

我需要找出在特定索引中配置的分析器(类型,语言..).我试过http://localhost:9200/wazzup/_mapping但它只提供有关字段名称/类型的信息.

谢谢

indexing snowball analyzer elasticsearch

Spa*_*on_

2014 03-25

18
推荐指数

1
解决办法

2万
查看次数

处理Apache Tika中的连字

Tika似乎不识别PDF文件中的连字(fi,ff,fl ...)并用问号替换它们.

有什么想法(不仅在Tika上)提取PDF文本,同时将字符连字转换为分离的字符？

File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);

Run Code Online (Sandbox Code Playgroud)

编辑

我的PDF文件是UTF-8编码(就是说的InputStream.getEncoding()),我的平台编码也是UTF-8.即使有了-Dfile.encoding=UTF8,它也无法正常工作.

例如,我应该有:"différentesimplémentations"......这就是我真正得到的:"di erentesimpl ementations"

java pdf character-encoding ligature apache-tika

Spa*_*on_

2014 03-14

6
推荐指数

0
解决办法

324
查看次数

Protégé4.3:本体一致性

我目前在Protégé4中创建了一个关于发明的本体论.

我宣布:

财产 fulfills
两个班级:Invention和Need

仍然在Protégé,我的课程发明由以下断言定义:

Invention subClassOf fulfills exactly 1 Need

Run Code Online (Sandbox Code Playgroud)

这意味着我不希望任何类型的个体Invention不是fulfills一个Need或多个.

为了验证这一说法,我创建了一个名为类型发明的个人Boots和类型的极品两个人分别叫Move_faster和Eat_faster.

我断言,Boots fulfills Move_faster并且Boots fulfills Eat_faster,这应该打破我的一致性,因为发明应该只满足一个需要.

但是,当我推出HermiT推理器时,我的本体仍然是一致的,即使在以下情况下:

Boots满足什么
Boots 满足任何不是的人 Need

这是正常的吗？

谢谢

rdf owl ontology protege reasoning

Spa*_*on_

2014 04-05

2
推荐指数

1
解决办法

458
查看次数

标签统计

analyzer ×1

apache-tika ×1

character-encoding ×1

elasticsearch ×1

indexing ×1

java ×1

ligature ×1

ontology ×1

owl ×1

pdf ×1

protege ×1

rdf ×1

reasoning ×1

snowball ×1

Elasticsearch:如何列出特定索引使用的每个分析器

处理Apache Tika中的连字

Protégé4.3:本体一致性

标签 统计

小编Spa_on_的帖子

标签统计