如何在ElasticSearch中索引.PDF文件

Kur*_*oZ7 24 elasticsearch

我是ElasticSearch的新手.我已经完成了关于创建索引的非常基础的教程.我确实理解索引的概念.我希望ElasticSearch在.PDF文件中搜索.基于我对创建索引的理解,似乎我需要读取.PDF文件并提取所有关键字以进行索引.但是,我不明白我需要遵循哪些步骤.如何阅读.PFD文件以提取关键字.

Ben*_*.12 44

似乎elasticsearch-mapper-attachment插件已在5.0.0(2016年10月26日发布)中弃用.该文档建议使用Ingest Attachment Processor Plugin作为替代.

安装:

sudo bin/elasticsearch-plugin install ingest-attachment
Run Code Online (Sandbox Code Playgroud)

请参阅如何使用ingest-attachment插件在Elasticsearch 5.0.0中索引pdf文件?有关如何使用Ingest Attachment插件的信息.

  • 这是今天(2016年11月18日)的正确答案.elasticsearch-mapper-attachments已过时,不适用于elasticsearch> = 5.0.0,但`ingest-attachment`就像魅力一样. (5认同)

Val*_*Val 9

您需要查看elasticsearch-mapper-attachments插件,因为它很可能帮助您实现所需.


小智 6

安装Elasticsearch mapper-attachment插件并使用类似于的代码:

public String indexDocument(String filePath, DataDTO dto) {
        IndexResponse response = null;
        try {
            response = this.prepareIndexRequest("collectionName").setId(dto.getId())
                    .setSource(jsonBuilder().startObject()
                    .field("file", Base64.encodeFromFile(filePath))
                    .endObject()).setRefresh(true).execute().actionGet();
        } catch (ElasticsearchException e) {
            //
        } catch (IOException e) {
            //
        }
    return response.getId();
}
Run Code Online (Sandbox Code Playgroud)


小智 5

如前所述,elasticsearch-mapper-attachment 插件已被弃用,可以使用 Ingest Attachment 插件代替

https://www.elastic.co/guide/en/elasticsearch/plugins/current/ingest-attachment.html