das*_*555 9 apache-spark apache-spark-sql pyspark spark-checkpoint
我读到了有关检查点的内容,它看起来很适合我的需求,但我找不到如何使用它的好例子。
我的问题是:
我应该指定检查点目录吗?是否可以这样做:
df.检查点()
有什么我应该注意的可选参数吗?
是否有默认检查点目录,或者我必须指定一个作为默认检查点目录?
当我检查数据帧并重用它时 - 它会自动从我们编写文件的目录中读取数据吗?
如果您能与我分享在 pyspark 中使用检查点的示例并附上一些解释,那就太好了。谢谢!
KGS*_*KGS 10
您应该将检查点数据帧分配给变量作为checkpoint“返回此数据集的检查点版本”(https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.sql.DataFrame。检查点.html)。所以
df = df.checkpoint()
Run Code Online (Sandbox Code Playgroud)
唯一的参数是eager指示您是否希望检查点触发操作并立即保存,这是True默认情况,您通常希望保持这种方式。
在使用检查点之前,您必须SparkContext.setCheckpointDir(dirName)在脚本中的某个位置设置检查点目录。或者,如果您想保存到内存中,则可以使用localCheckpoint()而不是checkpoint(),但这是不可靠的,并且在出现问题/终止后检查点将丢失(但它应该更快,因为它使用缓存子系统而不是仅写入磁盘)。
是的,它应该自动读取,您可以查看历史服务器,并且在块/查询的开头应该有“加载数据”节点(我不记得确切的名称)
| 归档时间: |
|
| 查看次数: |
15645 次 |
| 最近记录: |