如何基于FileFormat编写spark自定义数据源

Wei*_*Wei 7 datasource apache-spark

我看到 spark avro 数据源是基于 FileFormat 接口实现的。是否有关于如何基于 FileFormat 编写 Spark 自定义数据源的文档?到目前为止,我找不到任何(除了来自 spark avro 的源代码)。

谢谢!

小智 5

这是一个基于文件的简单 Spark 数据源示例:https : //hackernoon.com/extending-our-spark-sql-query-engine-5f4a088de986

这里还有几个实现数据源 API 的示例: * https://github.com/databricks/spark-csv * https://github.com/databricks/spark-avro