Apache Spark SQLContext和HiveContext有什么区别?
一些消息来源称,由于HiveContext是SQLContext的超集,因此开发人员应始终使用HiveContext,它具有比SQLContext更多的功能.但是每个上下文的当前API大多是相同的.
hive apache-spark apache-spark-sql
我知道我们可以在pyspark中使用Window函数来计算累积和.但是Window仅在HiveContext中支持,而不在SQLContext中支持.我需要使用SQLContext,因为HiveContext无法在多个进程中运行.
有没有有效的方法来使用SQLContext计算累积和?一种简单的方法是将数据加载到驱动程序的内存中并使用numpy.cumsum,但con是需要能够装入内存的数据
python apache-spark apache-spark-sql pyspark
apache-spark ×2
apache-spark-sql ×2
hive ×1
pyspark ×1
python ×1