Vin*_*aes 4 python pandas pyspark great-expectations
我有一个 pandas 或 pyspark 数据框df,我想在其中运行期望。我的数据框已经在内存中了。如何将我的数据框转换为great_expectations 数据集?
这样我就可以这样做:
df.expect_column_to_exist("my_column")
Run Code Online (Sandbox Code Playgroud)
import great_expectations as ge
Run Code Online (Sandbox Code Playgroud)
对于熊猫:
df_ge = ge.from_pandas(df)
Run Code Online (Sandbox Code Playgroud)
或者
df_ge = ge.dataset.PandasDataset(df)
Run Code Online (Sandbox Code Playgroud)
对于 pyspark:
df_ge = ge.dataset.SparkDFDataset(df)
Run Code Online (Sandbox Code Playgroud)
现在你可以运行你的期望
df_ge.expect_column_to_exist("my_column")
Run Code Online (Sandbox Code Playgroud)
请注意,great_expectations SparkDFDataset 不会从 pyspark DataFrame 继承函数。您可以通过以下方式访问原始的 pyspark DataFrame
df_ge.spark_df