小编Mos*_*ani的帖子

SparkContext,JavaSparkContext,SQLContext和SparkSession之间的区别?

  1. SparkContext, JavaSparkContext, SQLContext和之间有什么区别SparkSession
  2. 是否有任何方法可以使用SparkSession?转换或创建Context ?
  3. 我可以使用一个条目完全替换所有上下文SparkSession吗?
  4. 在所有的功能SQLContext,SparkContextJavaSparkContextSparkSession
  5. 有些功能parallelizeSparkContext和中有不同的行为JavaSparkContext.他们是如何表现的SparkSession
  6. 如何使用SparkSession?创建以下内容?

    • RDD
    • JavaRDD
    • JavaPairRDD
    • Dataset

有没有一种方法可以将a JavaPairRDD转换为a DatasetDataseta JavaPairRDD

java scala apache-spark rdd apache-spark-dataset

34
推荐指数
3
解决办法
1万
查看次数

普通 docker 镜像和 s2i 镜像有什么区别?

我尝试以交互模式运行centos:centos7 docker 映像,它工作正常并且容器启动成功,但是当我尝试运行centos/python-36-centos7:latest时,显示以下文本而不是容器。

This is a S2I python-3.6 centos base image:
To use it, install S2I: https://github.com/openshift/source-to-image
Sample invocation:
s2i build https://github.com/sclorg/s2i-python-container.git --context-dir=3.6/test/setup-test-app/ centos/python-36-centos7 python-sample-app
You can then run the resulting image via: podman run -p 8080:8080 python-sample-app
Run Code Online (Sandbox Code Playgroud)

请参阅随附的屏幕截图 图片截图

这两个图像有什么区别?

docker s2i

6
推荐指数
0
解决办法
2383
查看次数

如何将Dataset转换为JavaPairRDD?

有一些方法可以将数据集转换为JavaRDD.

Dataset<Row> dataFrame;
JavaRDD<String> data = dataFrame.toJavaRDD();
Run Code Online (Sandbox Code Playgroud)

有没有其他方法可以将数据集转换为javaPairRDD<Long, Vector>

java apache-spark apache-spark-dataset java-pair-rdd

5
推荐指数
1
解决办法
4030
查看次数

什么是StringIndexer,VectorIndexer,以及如何使用它们?

Dataset<Row> dataFrame = ... ;   
StringIndexerModel labelIndexer = new StringIndexer()
               .setInputCol("label")
               .setOutputCol("indexedLabel")
               .fit(dataFrame);

 VectorIndexerModel featureIndexer = new VectorIndexer()
               .setInputCol("s")
               .setOutputCol("indexedFeatures")
               .setMaxCategories(4)
               .fit(dataFrame);
IndexToString labelConverter = new IndexToString()
               .setInputCol("prediction")
               .setOutputCol("predictedLabel")
               .setLabels(labelIndexer.labels());
Run Code Online (Sandbox Code Playgroud)

什么是StringIndexer,VectorIndexer,IndexToString,它们之间有什么区别?我应该如何以及何时使用它们?

dataset apache-spark spark-dataframe

5
推荐指数
2
解决办法
9346
查看次数

如何在java 8中使用流将集合/数组转换为JSONArray

我有一个双数组,我需要使用java流将数组转换为JSONArray.我尝试使用forEach(共享可变性),这会导致数据丢失.

public static JSONArray arrayToJson(double[] array) throws JSONException{
    JSONArray jsonArray = new JSONArray();

    Arrays.stream(array)
         .forEach(jsonArray::put);  

    return jsonArray;
}
Run Code Online (Sandbox Code Playgroud)

有什么方法可以使用流创建JSONArray吗?

java arrays stream java-8 java-stream

5
推荐指数
1
解决办法
4696
查看次数

如何使用java中的流收集List <String>到List <String>?

我有listData (List<String>)一个getList接受String作为参数的方法(例如"java")并返回一个List<String>(例如["j","a","v","a"]).我需要将这些列表收集到一个列表中.我试过了addAll,它工作正常:

List<String> listData = Arrays.asList("java","Stream","laMbdA");
List<String> resultList = new ArrayList<>();

listData.stream()
        .map(this::getList)  // acccepts String as an argument and returns List<String>
        .forEach(resultList::addAll);
Run Code Online (Sandbox Code Playgroud)

如果我尝试Collectors.toList(),我会得到一个List<List<String>>

 listData.stream()
         .map(this::getList)
         .collect(Collectors.toList());
Run Code Online (Sandbox Code Playgroud)

有什么方法Collectors可以代替addAll吗?

java stream java-stream

-1
推荐指数
1
解决办法
123
查看次数