使用正则表达式过滤PySpark数据框的列(按名称)

Des*_*eMe 1 pyspark

我有一个带有3k-4k列的Spark数据框,我想删除名称符合某些可变条件的列。其中ColumnName喜欢' foo '。

Mar*_*usz 5

要获取列名,请使用df.columnsdrop()支持在一个调用中删除许多列。下面的代码使用了这两个,并满足您的需要:

condition = lambda col: 'foo' in col
new_df = df.drop(*filter(condition, df.columns))
Run Code Online (Sandbox Code Playgroud)