如何通过列名的前缀对 Spark 数据框进行子集化？

Nel*_*le 1 prefixes apache-spark apache-spark-sql pyspark

我的 Spark 数据帧df的列名称是：A_x1、A_x2、B_x1、B_x2、C_x1、C_x2。

如何使用前缀从df创建 3 个新的 Spark 数据帧？输出应如下所示：

名为A_的数据框包含列 A_x1、A_x2、
名为B_的数据框包含列 B_x1、B_x2、
名为C_的数据帧包含列 C_x1、C_x2。

谢谢你！

您可以使用colRegex过滤列：

A_ = df.select(df.colRegex('`A_.*`'))
B_ = df.select(df.colRegex('`B_.*`'))
C_ = df.select(df.colRegex('`C_.*`'))

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，1 月前
查看次数：	1160 次
最近记录：	5 年，1 月前

如何从群集的Spark节点使用Akka actor 7

使用PySpark在数据框架上应用sklearn训练的模型 7

Spark-csv 不会将 DataFrame 保存到文件时有解释吗？ 6

如何将向量列拆分为两列？ 5

使用PySpark将日期和时间字符串转换为时间戳时，如何保留毫秒？ 5

如何在执行“org.apache.spark.sql.DataSet.collectAsList()”时修复“不支持的类文件主要版本 55” 5

如何在Databricks中显示所有数据库中的所有表 4

如何计算DataFrame列的2的幂 3

如何应用groupby条件并获取结果中的所有列？ 2

将镶木地板文件存储到PostgreSQL数据库中 1

如何重定向到其他网页？ 7725

为什么减去这两次(在1927年)给出一个奇怪的结果？ 6628

了解切片表示法 3024

如何禁用textarea的resizable属性？ 2541

什么是__init__.py？ 2074

带请求正文的HTTP GET 1896

Facebook如何禁用浏览器的集成开发人员工具？ 1652

我应该如何道德地接近用户密码存储以便以后的明文检索？ 1346

如何让ASP.NET Web API使用Chrome返回JSON而不是XML？ 1220

如何在Vim中移动到行尾？ 1140