相关疑难解决方法(0)

Apache Spark SQLContext和HiveContext有什么区别?

Apache Spark SQLContext和HiveContext有什么区别?

一些消息来源称,由于HiveContext是SQLContext的超集,因此开发人员应始终使用HiveContext,它具有比SQLContext更多的功能.但是每个上下文的当前API大多是相同的.

  • SQLContext/HiveContext更有用的场景是什么?
  • 只有在使用Hive时,HiveContext才更有用吗?
  • 或者SQLContext是否是使用Apache Spark实现大数据应用程序所需的全部内容?

hive apache-spark apache-spark-sql

45
推荐指数
2
解决办法
3万
查看次数

如何使用sqlContext计算累积和

我知道我们可以在pyspark中使用Window函数来计算累积和.但是Window仅在HiveContext中支持,而不在SQLContext中支持.我需要使用SQLContext,因为HiveContext无法在多个进程中运行.

有没有有效的方法来使用SQLContext计算累积和?一种简单的方法是将数据加载到驱动程序的内存中并使用numpy.cumsum,但con是需要能够装入内存的数据

python apache-spark apache-spark-sql pyspark

4
推荐指数
2
解决办法
8859
查看次数

标签 统计

apache-spark ×2

apache-spark-sql ×2

hive ×1

pyspark ×1

python ×1