我正在尝试处理每天都在不断增长的4个文本文件目录.我需要做的是,如果有人试图搜索发票号,我应该给他们提供它的文件列表.
通过将它们加载为RDD,我能够映射和减少文本文件中的值.但是,如何获取文件名和其他文件属性?
apache-spark
apache-spark ×1