我是Spark和Scala的新手。我们有广告事件日志文件,格式为CSV,然后使用pkzip压缩。我已经看到了许多有关如何使用Java解压缩压缩文件的示例,但是如何使用Scala for Spark来执行此操作?最终,我们希望从每个传入文件中获取,提取数据并将其加载到Hbase目标表中。也许可以使用HadoopRDD做到这一点吗?此后,我们将介绍Spark流技术来监视这些文件。
谢谢,本
scala apache-spark
apache-spark ×1
scala ×1