小编Bal*_*raj的帖子

reduceByKey与groupByKey之间的Spark差异与aggregateByKey vs combineByKey之间的差异

任何人都可以解释reducebykey,groupbykey,aggregatebykey和combinebykey之间的区别吗?我已经阅读了有关这方面的文件,但无法理解确切的区别?

如果你能用例子解释它会很棒.

apache-spark

53
推荐指数
5
解决办法
7万
查看次数

静态和动态编程语言之间的区别

静态和动态编程语言有什么不同?我知道这完全是关于类型系统的,但我正在寻找更清晰的说明.

static type-systems programming-languages dynamic

34
推荐指数
2
解决办法
4万
查看次数

SparkContext,JavaSparkContext,SQLContext和SparkSession之间的区别?

  1. SparkContext, JavaSparkContext, SQLContext和之间有什么区别SparkSession
  2. 是否有任何方法可以使用SparkSession?转换或创建Context ?
  3. 我可以使用一个条目完全替换所有上下文SparkSession吗?
  4. 在所有的功能SQLContext,SparkContextJavaSparkContextSparkSession
  5. 有些功能parallelizeSparkContext和中有不同的行为JavaSparkContext.他们是如何表现的SparkSession
  6. 如何使用SparkSession?创建以下内容?

    • RDD
    • JavaRDD
    • JavaPairRDD
    • Dataset

有没有一种方法可以将a JavaPairRDD转换为a DatasetDataseta JavaPairRDD

java scala apache-spark rdd apache-spark-dataset

34
推荐指数
3
解决办法
1万
查看次数

在封闭范围内定义的局部变量日志必须是最终的或有效的最终

我是lambda和Java8的新手.我正面临以下错误.

在封闭范围内定义的局部变量日志必须是最终的或有效的最终

public JavaRDD<String> modify(JavaRDD<String> filteredRdd) {

    filteredRdd.map(log -> {

        placeHolder.forEach(text -> {

            //error comes here
            log = log.replace(text, ",");

        });

        return log;

    });

    return null;
}
Run Code Online (Sandbox Code Playgroud)

java lambda java-8 apache-spark

16
推荐指数
4
解决办法
4万
查看次数

RDD对JavaRDD转换的性能影响

我有一个像这样的代码,我想在JavaRDD而不是RDD上工作.所以,我在这里进行转换.我想知道这种转换对性能的影响,特别是当我处理GB数据时.

RDD<String> textFile = sc.textFile(filePath, 2);
JavaRDD<String> javaRDD = textFile.toJavaRDD(); 
Run Code Online (Sandbox Code Playgroud)

这是广泛的转变还是缩小?JavaRDD和RDD有什么区别?

java scala apache-spark rdd

8
推荐指数
1
解决办法
4277
查看次数

Hibernate从数据库函数生成ID

我的代码是

    `@Id
@GenericGenerator(name="generator", strategy="increment")
@GeneratedValue(generator="generator")

@Column(name = "PM_ID", nullable = false, length=12)
private long pmId;`
Run Code Online (Sandbox Code Playgroud)

在上面,id是来自数据库的max id +1,但我想从数据库函数生成这个pmid列,并希望将值传递给该函数.我的函数名是generateID(2,3)

所以请告诉我如何做到这一点..

java hibernate

4
推荐指数
1
解决办法
1771
查看次数

动态向 Neo4j 添加属性

如何动态添加新属性到现有节点?在这里,我想将键和值动态分配给我的 chypher 查询。任何建议将不胜感激:)

neo4j cypher

4
推荐指数
1
解决办法
1299
查看次数

Spark Scala 注册 UDF - 为什么我需要在函数末尾传递下划线 (_)

我在 Scala 中创建了一个 UDF,当我试图用函数名注册这个 UDF 时,它显示了我的错误。

不工作

def IPConvertUDF = spark.udf.register("IPConvertUDF", IPConvert)
Run Code Online (Sandbox Code Playgroud)

错误

error: missing argument list for method IPConvert
Unapplied methods are only converted to functions when a function type is expected.
You can make this conversion explicit by writing `IPConvert _` or `IPConvert(_)` instead of `IPConvert`.
def IPConvertUDF = spark.udf.register("IPConvertUDF", IPConvert)
Run Code Online (Sandbox Code Playgroud)

所以我_在方法名称之后添加了额外的东西并且它起作用了。

完美运行

def IPConvertUDF = spark.udf.register("IPConvertUDF", IPConvert _)
Run Code Online (Sandbox Code Playgroud)

有人能解释一下_方法名后面的extra是什么意思吗?

scala apache-spark

4
推荐指数
1
解决办法
1103
查看次数

地图转换为何狭窄?

我知道RDD的窄变换和宽变换之间的区别.我的问题是哪些参数可以证明map,flatmap是窄的?为什么这些转变不广泛?有关RDD学习材料的任何建议表示赞赏.

java scala apache-spark rdd

3
推荐指数
1
解决办法
2065
查看次数

在Java或Scala中将微秒字符串转换为日期

如何在Java/Scala中将时间戳(以微秒为单位)转换为日期.我的目标是比较两个时间戳并找出它们之间的差异.我正在使用java 8和示例Timestamp字符串是1474457086337977.我想将其转换为Date或Timestamp实例.

java scala

-2
推荐指数
1
解决办法
3093
查看次数