为什么我不需要在 Databricks 中创建 SparkSession?集群设置的时候会自动创建一个SparkSession吗?还是其他人帮我做的?
我在 PySpark 中有以下数据框:
DT_BORD_REF:该月的日期列
REF_DATE: 过去和未来的当前日期参考
PROD_ID: 产品 ID
COMPANY_CODE: 公司 ID
CUSTOMER_CODE: 客户 ID
MTD_WD: 本月至今的工作日计数(日期 = DT_BORD_REF)
QUANTITY: 已售
QTE_MTD商品数 : 本月至本月的商品数日期
+-------------------+-------------------+-----------------+------------+-------------+-------------+------+--------+-------+
| DT_BORD_REF| REF_DATE| PROD_ID|COMPANY_CODE|CUSTOMER_CODE|COUNTRY_ALPHA|MTD_WD|QUANTITY|QTE_MTD|
+-------------------+-------------------+-----------------+------------+-------------+-------------+------+--------+-------+
|2020-11-02 00:00:00|2020-11-04 00:00:00| 0000043| 503| KDAI3982| RUS| 1| 4.0| 4.0|
|2020-11-05 00:00:00|2020-11-04 00:00:00| 0000043| 503| KDAI3982| RUS| 3| null| 4.0|
|2020-11-06 00:00:00|2020-11-04 00:00:00| 0000043| 503| KDAI3982| RUS| 4| null| 4.0|
|2020-11-09 00:00:00|2020-11-04 00:00:00| 0000043| 503| KDAI3982| RUS| 5| null| 4.0|
|2020-11-10 00:00:00|2020-11-04 …Run Code Online (Sandbox Code Playgroud)