小编CAR*_*ent的帖子

BigQuery 替换了我的大部分 Spark 作业,我是否遗漏了什么?

多年来,我一直在使用本地集群开发 Spark 作业,我们的团队最近迁移到了 Google Cloud Platform,这使我们能够利用 BigQuery 等的强大功能。

问题是,我现在经常发现自己在 SQL 中编写处理步骤比在 PySpark 中编写处理步骤要多,因为它是:

  • 更容易推理(不那么冗长)
  • 更易于维护(SQL 与 scala/python 代码)
  • 如果需要,您可以在 GUI 上轻松运行它
  • 快速而无需真正考虑分区,缓存等......

最后,只有当我有事情要做而我无法用 SQL 表达时,我才会使用 Spark。

需要明确的是,我的工作流程通常是这样的:

  • 预处理(以前在 Spark 中,现在在 SQL 中)
  • 特征工程(以前在 Spark 中,现在主要在 SQL 中)
  • 机器学习模型和预测 (Spark ML)

我错过了什么吗?以这种方式使用 BigQuery 而不是 Spark 有什么缺点吗?

谢谢

sql bigdata google-bigquery apache-spark apache-spark-sql

14
推荐指数
1
解决办法
2228
查看次数