我需要找出在特定索引中配置的分析器(类型,语言..).我试过http://localhost:9200/wazzup/_mapping但它只提供有关字段名称/类型的信息.
谢谢
Tika似乎不识别PDF文件中的连字(fi,ff,fl ...)并用问号替换它们.
有什么想法(不仅在Tika上)提取PDF文本,同时将字符连字转换为分离的字符?
File file = new File("path/to/file.pdf");
String text = Tika().parseToString(file);
Run Code Online (Sandbox Code Playgroud)
编辑
我的PDF文件是UTF-8编码(就是说的InputStream.getEncoding()),我的平台编码也是UTF-8.即使有了-Dfile.encoding=UTF8,它也无法正常工作.
例如,我应该有:"différentesimplémentations"......这就是我真正得到的:"di erentesimpl ementations"
我目前在Protégé4中创建了一个关于发明的本体论.
我宣布:
fulfillsInvention和Need仍然在Protégé,我的课程发明由以下断言定义:
Invention subClassOf fulfills exactly 1 Need
Run Code Online (Sandbox Code Playgroud)
这意味着我不希望任何类型的个体Invention不是fulfills一个Need或多个.
为了验证这一说法,我创建了一个名为类型发明的个人Boots和类型的极品两个人分别叫Move_faster和Eat_faster.
我断言,Boots fulfills Move_faster并且Boots fulfills Eat_faster,这应该打破我的一致性,因为发明应该只满足一个需要.
但是,当我推出HermiT推理器时,我的本体仍然是一致的,即使在以下情况下:
Boots满足什么Boots 满足任何不是的人 Need这是正常的吗?
谢谢