每种格式的书写或阅读选项参考在哪里?

Sat*_*yam 13 apache-spark apache-spark-sql apache-spark-1.6

我使用Spark 1.6.1.

我们正在尝试使用HiveContext和DataFrameWriter将ORC文件写入HDFS.虽然我们可以使用

df.write().orc(<path>)
Run Code Online (Sandbox Code Playgroud)

我们宁愿做类似的事情

df.write().options(Map("format" -> "orc", "path" -> "/some_path")
Run Code Online (Sandbox Code Playgroud)

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径.我们在哪里可以找到可以传递到DataFrameWriter的选项的引用?我在这里的文档中找不到任何内容

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

Jac*_*ski 20

我们在哪里可以找到可以传递到DataFrameWriter的选项的引用?

最明确和权威的答案是来源:

您可以在文档中找到一些描述,但没有单个页面(可能会从源自动生成以保持最新状态).

原因是选项与格式实现有意分离,以便为每个用例提供灵活性(正如您所说):

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径.


您的问题类似于如何了解Databricks支持的文件格式?在哪里我说:

我在哪里可以获得每种文件格式支持的选项列表?

这是不可能的,因为没有 API(如Spark MLlib)来定义选项.每种格式都是独立完成的...不幸的是,您最好的选择是阅读文档或(更具权威性)源代码.