我想将Spark参数(如输入文件,输出文件)存储到Java属性文件中,并将该文件传递给Spark Driver.我使用spark-submit提交作业但找不到传递属性文件的参数.你有什么建议吗?
我有一个班级:
public class Test {
private static String name;
public static String getName() {
return name;
}
public static void setName(String name) {
Test.name = name;
}
public static void print() {
System.out.println(name);
}
}
Run Code Online (Sandbox Code Playgroud)
在我的Spark驱动程序中,我正在设置这样的名称并调用print()命令:
public final class TestDriver{
public static void main(String[] args) throws Exception {
SparkConf sparkConf = new SparkConf().setAppName("TestApp");
// ...
// ...
Test.setName("TestName")
Test.print();
// ...
}
}
Run Code Online (Sandbox Code Playgroud)
但是,我得到了一个NullPointerException.如何将值传递给全局变量并使用它?
我们有一个拥有大约20个节点的集群.此群集在许多用户和作业之间共享.因此,我很难观察我的工作,以便获得一些指标,如CPU使用率,I/O,网络,内存等......
如何获得工作级别的指标.
PS:群集已经安装了Ganglia但不确定如何让它在作业级别上运行.我想要做的是监视集群使用的资源,仅执行我的工作.
我正计划开发一个能够应对可扩展性,灵活性和容错性的分布式数据存储.
我看过Erlang但发现了一些负面意见.
我可以使用AKKA构建数据存储区吗?
apache-spark ×3
java ×2
bigdata ×1
datastore ×1
erlang ×1
ganglia ×1
hadoop ×1
performance ×1
scalability ×1