使用正则表达式过滤PySpark数据框的列（按名称）

Question

我有一个带有3k-4k列的Spark数据框，我想删除名称符合某些可变条件的列。其中ColumnName喜欢' foo '。

Answer 1

要获取列名，请使用df.columns并drop()支持在一个调用中删除许多列。下面的代码使用了这两个，并满足您的需要：

condition = lambda col: 'foo' in col
new_df = df.drop(*filter(condition, df.columns))