如何将数据帧转换为 Great_expectations 数据集?

Vin*_*aes 4 python pandas pyspark great-expectations

我有一个 pandas 或 pyspark 数据框df,我想在其中运行期望。我的数据框已经在内存中了。如何将我的数据框转换为great_expectations 数据集?

这样我就可以这样做:

df.expect_column_to_exist("my_column")
Run Code Online (Sandbox Code Playgroud)

Vin*_*aes 9

import great_expectations as ge
Run Code Online (Sandbox Code Playgroud)

对于熊猫:

df_ge = ge.from_pandas(df)
Run Code Online (Sandbox Code Playgroud)

或者

df_ge = ge.dataset.PandasDataset(df)
Run Code Online (Sandbox Code Playgroud)

对于 pyspark:

df_ge = ge.dataset.SparkDFDataset(df)
Run Code Online (Sandbox Code Playgroud)

现在你可以运行你的期望

df_ge.expect_column_to_exist("my_column")
Run Code Online (Sandbox Code Playgroud)

请注意,great_expectations SparkDFDataset 不会从 pyspark DataFrame 继承函数。您可以通过以下方式访问原始的 pyspark DataFramedf_ge.spark_df