我正在阅读如下数据集.
f = sc.textFile("s3://test/abc.csv")
Run Code Online (Sandbox Code Playgroud)
我的文件包含50多个字段,我希望为每个字段分配列标题,以便稍后在我的脚本中引用.
我如何在PySpark中做到这一点?DataFrame的方式是什么?
PS - Spark的新手.
我希望在Hive中获取所有表定义.我知道对于单表定义我可以使用类似的东西 -
describe <<table_name>>
describe extended <<table_name>>
Run Code Online (Sandbox Code Playgroud)
但是,我找不到获取所有表定义的方法.在megastore中是否有类似于mysql中的Information_Schema的表,或者是否有命令来获取所有表定义?
我正在尝试学习scala并理解函数和方法之间的区别.
这是我写的非常简单的代码 -
scala> class C ( acc:Int) {
| val minc = ( acc + 1 )
| val func = { () => acc += 3 }
| }
scala> val c1 = new C(3)
c1: C = C@55e610e3
scala> c1.minc
res2: Int = 4
scala> c1.func
res3: () => Int = <function0>
Run Code Online (Sandbox Code Playgroud)
我理解在实例化对象c1上调用函数func的结果存储为另一个表达式res3.
但是我希望从C类内部的匿名函数()= acc +3中获取价值.
如果我尝试将参数传递给res3表达式,则scala会抛出错误
scala> res3(4)
<console>:11: error: too many arguments for method apply: ()Int in trait Function0
res3(4)
^
Run Code Online (Sandbox Code Playgroud)
如何从中获取价值?
PS - 我刚开始使用scala,不知道这是否可能?