将 printSchema() 函数的结果保存到 Pyspark 中的变量中？

Question

我正在使用该printSchema函数来推断 Json 文件的架构。我想将此函数调用的结果保存在一个变量中，以便逐行解析它，以便我可以提取模式结构并将其转换为 DDL 模式，以便在 hive 中创建表。

如何才能做到这一点？

Answer 1

如果您检查的源代码printSchema()，您将看到该函数仅执行以下操作：

print(self._jdf.schema().treeString())

因此，您可以按如下方式保存输出：

printSchemaString = df._jdf.schema().treeString()

其他参考：