问题几乎在标题中.我找不到有关差异的详细文档.
我注意到了一个区别,因为在交换cube和groupBy函数调用时,我会得到不同的结果.我注意到对于使用'cube'的结果,我在经常分组的表达式上得到了很多空值.
使用Spark SQL的窗口函数,我需要按多列分区来运行我的数据查询,如下所示:
val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0)
我目前没有测试环境(正在进行设置),但作为一个简单的问题,这是当前支持作为Spark SQL的窗口函数的一部分,还是这不起作用?
当我尝试使用import sqlContext.implicits._我的Jupyter笔记本时,我收到以下错误:
Name: Compile Error
Message: <console>:25: error: stable identifier required, but $iwC.this.$VAL10.sqlContext.implicits found.
import sqlContext.implicits._
^
Run Code Online (Sandbox Code Playgroud)
我在本地尝试了它并且它可以工作,但是在我的Jupyter Notebook服务器(托管在ec2上)上使用它时,它没有正常工作.我尝试导入涉及它的不同库,但遗憾的是无法使其运行.