Clojure - 将PDF/Doc文件提取为简单文本的最佳方法

Cod*_*ive 3 file-upload clojure

我正在寻找一个简单的解决方案来解析上传到我的应用程序的每个文件,并转换为简单的文本.我的Web应用程序在Clojure上运行,并且更喜欢API来解析各种文件类型.

jos*_*hua 5

看看apache poi,pdfboxapache tika.

它们是用于处理各种文件格式的Java库.您可以直接在clojure应用程序中使用他们的Java API.

以下是apache tika网站的引用.

Apache Tika™工具包使用现有的解析器库从各种文档(从PPT到CSV到PDF)检测和提取元数据和文本内容.Tika在单个界面下统一这些解析器,以便您轻松解析超过一千种不同的文件类型.Tika对于搜索引擎索引,内容分析,翻译等非常有用.

以下是pdfbox网站的引用.

Apache PDFBox™库是一个用于处理PDF文档的开源Java工具.该项目允许创建新的PDF文档,处理现有文档以及从文档中提取内容的功能

以下是poi网站的引用

多年来,Apache POI为所有项目支持的文件格式提供了基本的文本提取.此外,除了(普通)文本之外,它们还提供对与给定文件相关联的元数据的访问,例如标题和作者.