小编Nic*_*ick的帖子

Databricks:如何从 R Dataframe 切换到 Pandas Dataframe(同一笔记本中的 R 到 python)

我正在 Databricks 笔记本中编写 R 代码,该代码在 R 中执行多项操作。清理数据帧后,我想使用“%python”在 python 单元中调用它,因此使用 python 代码继续对数据帧进行操作。

因此,我想在 python 块内将我的 R 数据框转换为 Pandas 数据框。有人知道怎么做这个吗?谢谢!

python r dataframe pandas databricks

6
推荐指数
2
解决办法
6308
查看次数

Pyspark:按 ID 和最近日期向后连接 2 个数据帧

我在 pyspark(以及一般的 python)中执行两个数据帧的滚动连接时遇到了很多问题。我希望通过 ID 和最近的日期将两个 pyspark 数据帧连接在一起(意味着第二个数据帧中的日期不能大于第一个数据帧中的日期)

表格1:

+-----+------------+--------+ |  身份证 |  日期 |  价值|  +-----+------------+--------+ |  A1 |  2020年1月15日 |  5 |  |  A2 |  2020年1月20日 |  10 | 10  |  A3|  2020年2月21日 |  12 | 12  |  A1 |  2020年2月21日 |  6 |  +-----+------------+--------+

表_2:

在此输入图像描述

期望的结果:

ID 日期 值 值 2 A1 01-15-2020 5 5 A2 01-20-2020 10 12 A3 02-21-2020 12 14 A1 01-21-2020 6 3

本质上,我知道 SQL 查询可以完成我可以做的事情,我可以做spark.sql(“query”)所以其他任何事情。我已经尝试了一些在 Spark 环境中不起作用的方法。谢谢!

python sql join pyspark

6
推荐指数
1
解决办法
5132
查看次数

标签 统计

python ×2

databricks ×1

dataframe ×1

join ×1

pandas ×1

pyspark ×1

r ×1

sql ×1