是否可以使用Apache Spark读取pdf /音频/视频文件(非结构化数据)?

Rah*_*iya 6 hadoop bigdata apache-spark

是否可以使用Apache Spark读取pdf /音频/视频文件(非结构化数据)?例如,我有成千上万的pdf发票,我想从这些发票中读取数据并对其进行一些分析.我必须采取哪些步骤来处理非结构化数据?

T. *_*ęda 7

是的.用于sparkContext.binaryFiles以二进制格式加载文件,然后用于map将值映射到其他格式 - 例如,使用Apache Tika或Apache POI解析二进制文件.

伪代码:

val rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map ( here parsing with other framework
Run Code Online (Sandbox Code Playgroud)

重要的是,解析必须使用之前在我的回答中提到的其他框架来完成.Map将获取InputStream作为参数