Tim*_*m.X 5 python python-3.x apache-spark
当我阅读其他人的python代码(如)时spark.read.option("mergeSchema", "true")
,似乎编码人员已经知道要使用什么参数。但是对于初学者来说,是否有地方可以查找这些可用参数?我查找apche文档,并显示未记录的参数。
谢谢。
令人讨厌的是,该option
方法的文档在该json
方法的文档中。该方法的文档说选项如下(键 - 值 - 描述):
primitivesAsString -- true/false (default false) -- 将所有原始值推断为字符串类型
prefersDecimal -- true/false (默认 false) -- 将所有浮点值推断为十进制类型。如果这些值不适合十进制,那么它会将它们推断为双精度值。
allowComments -- true/false (默认 false) -- 忽略 JSON 记录中的 Java/C++ 样式注释
allowUnquotedFieldNames -- true/false (default false) -- 允许不带引号的 JSON 字段名称
allowSingleQuotes -- true/false (default true) -- 除了双引号外还允许单引号
allowNumericLeadingZeros -- true/false (default false) -- 允许数字前导零(例如 00012)
allowBackslashEscapingAnyCharacter -- true/false (default false) -- 允许使用反斜杠引用机制接受所有字符的引用
allowUnquotedControlChars -- true/false (default false) -- 允许 JSON 字符串包含或不包含未引用的控制字符(值小于 32 的 ASCII 字符,包括制表符和换行符)。
mode -- PERMISSIVE/DROPMALFORMED/FAILFAST (default PERMISSIVE) -- 允许在解析过程中处理损坏记录的模式。
小智 4
对于内置格式,官方文档中列出了所有选项。每种格式都有自己的一组选项,因此您必须参考您使用的选项。
用于单个方法的read
开放文档和扩展文档。DataFrameReader
假设 JSON 格式扩展json
方法(只有一种变体包含完整的选项列表)
用于编写开放文档DataFrameWriter
。以镶木地板为例:
但是,合并架构不是通过选项执行的,而是使用会话属性执行的
spark.conf.set("spark.sql.parquet.mergeSchema", "true")
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4718 次 |
最近记录: |