多年来,我一直在使用本地集群开发 Spark 作业,我们的团队最近迁移到了 Google Cloud Platform,这使我们能够利用 BigQuery 等的强大功能。
问题是,我现在经常发现自己在 SQL 中编写处理步骤比在 PySpark 中编写处理步骤要多,因为它是:
最后,只有当我有事情要做而我无法用 SQL 表达时,我才会使用 Spark。
需要明确的是,我的工作流程通常是这样的:
我错过了什么吗?以这种方式使用 BigQuery 而不是 Spark 有什么缺点吗?
谢谢
sql bigdata google-bigquery apache-spark apache-spark-sql
apache-spark ×1
apache-spark-sql ×1
bigdata ×1
google-bigquery ×1
sql ×1