小编Lea*_*ner的帖子

使用附加列刷新 powerBI 数据

我已经powerBI使用来自的数据源构建了一个仪表板Datalake Gen2。我正在尝试将新列添加到我的原始数据源中。如何从 PowerBI 端刷新而不出现太多问题，或者最好的方法是什么？

azure powerbi azure-data-lake-gen2

Ajj*_*jju

2020 02-10

13
推荐指数

2
解决办法

4万
查看次数

Spark，Scala-如何从数据框中的两列的每组中获取前3个值

我有一个包含这些值的DataFrame：

Dept_id  |  name  | salary
 1           A       10
 2           B       100
 1           D       100
 2           C       105
 1           N       103
 2           F       102
 1           K       90
 2           E       110

Run Code Online (Sandbox Code Playgroud)

我想要这种形式的结果：

Dept_id  |  name  | salary
 1           N       103
 1           D       100
 1           K       90
 2           E       110
 2           C       105 
 2           F       102

Run Code Online (Sandbox Code Playgroud)

提前致谢：）。

scala apache-spark apache-spark-sql

Lea*_*ner

2019 01-09

5
推荐指数

1
解决办法

3306
查看次数

如何在Scala中将复杂的JSON字符串转换为MAP

我有一个文本文件，其中包含一行

球员={“梅西”：{“详细信息”：{“进球”：500}，“国家”：“阿根廷”}，“内马尔”：{“俱乐部”：[“桑托斯”，“巴塞罗那足球俱乐部”，“巴黎圣德文"], "国家":"巴西"}}

现在我使用正则表达式来提取

{“梅西”：{“详细信息”：{“进球”：500}，“国家”：“阿根廷”}，“内马尔”：{“俱乐部”：[“桑托斯”，“巴塞罗那足球俱乐部”，“巴黎圣德意志人” "],"国家":"巴西"}}

从文本文件并将其传递给接受值作为String的 case 类。

我正在使用这个案例类制作一个数据框。

在我的情况下，每一行的内容可能与 JSON 字符串不同。所以我正在寻找一个通用的解决方案来将任何复杂的 Json 字符串转换为 Map 值。

检查dataframe.printSchema 时，我将玩家列作为字符串类型获取。但我需要它作为一个 Map 类型，它包含一个 Key 和一个值作为 Struct 类型。我尝试了此链接中提到的方法

如何将 json 字符串转换为 Scala 映射？

当我使用这种方式时，出现错误

"org.json4s.package$MappingException: 不知道如何将 JObject(List((Details,JObject(List((Goals,JString(500))))), (Country,JString(Argentina)))) 转换成类java.lang.String "

我使用了以下解决方案

在 Scala 中将 JSON 字符串转换为 JSON 对象

但这些对我也不起作用。

这是我的案例课

case class caseClass (
                       Players :String = ""
                     )

Run Code Online (Sandbox Code Playgroud)

我正在使用用户定义的函数提取 json 字符串。

简单地说，我的要求是我有一个复杂的 Json 字符串，其中包含键和值，如结构、列表等。

所以我想将字符串转换为其相应的 JSON，该 JSON 拥有与其内容相关的正确模式。

敬请期待有价值的解决方案。

java json scala intellij-idea apache-spark

ADA*_*H K

2019 04-04

5
推荐指数

1
解决办法

1758
查看次数

我需要在用户变量或系统变量中设置java JDK路径吗？

我是java编程新手。我目前使用的是Windows。最近我在 YouTube 上看到了一个视频教程，讲师正在设置java JDK path系统变量，然后创建一个名为的新变量JAVA_HOME。

现在我看到javaTpoint tutorial他们在用户变量中设置路径没有创建任何JAVA_HOME变量。

所以我的问题是用户变量和系统变量中设置的路径有什么区别？我必须设置哪一项？这是怎么回事JAVA_HOME？

我没有找到任何正确的解释。我们将非常感谢您的回答。

java path java-home

Md.*_*bir

2020 08-11

3
推荐指数

1
解决办法

8874
查看次数

如何过滤掉spark数据框中的布尔字段？

我的数据框中有三列。在这第二个和第三个是布尔字段。我想过滤掉正确的值。我试过这个，nn.filter(col("col3")===true).show但它说无效的列名“true”。我的代码有什么用？请问有什么帮助吗？

我的代码：

scala> nn.printSchema
root
 |-- ID: integer (nullable = true)
 |-- col2: boolean (nullable = true)
 |-- col3: boolean (nullable = true)

scala> nn.show
+---+-----+-----+
| ID| col2| col3|
+---+-----+-----+
|  4| true|false|
|  5|false|false|
|  6|false|false|
|  7|false|false|
| 12|false|false|
| 13|false|false|
| 14|false|false|
| 15|false| true|
| 16|false|false|
| 17|false|false|
| 18|false|false|
| 22|false|false|
| 36|false|false|
| 37|false|false|
| 38|false|false|
| 39|false|false|
| 40|false|false|
| 41| true|false|
| 42|false|false|
+---+-----+-----+

scala> nn.filter(col("col3")===true).show
[Stage 14:>                                                         (0 …

Run Code Online (Sandbox Code Playgroud)

hadoop scala apache-spark

Kri*_*kar

2019 05-27

2
推荐指数

1
解决办法

5665
查看次数

如何从Spark将文件写入Cassandra

我是Spark和Cassandra的新手。我使用此代码，但它给我错误。

val dfprev = df.select(col = "se","hu")
val a = dfprev.select("se")
val b = dfprev.select("hu")
val collection = sc.parallelize(Seq(a,b))
collection.saveToCassandra("keyspace", "table", SomeColumns("se","hu"))

Run Code Online (Sandbox Code Playgroud)

当我在上输入此代码时savetocassandra，它给我错误，错误是：

java.lang.IllegalArgumentException：不允许多个带有相同数量参数的构造方法。com.datastax.spark.connector.util.Reflect $ .methodSymbol（Reflect.scala：16）com.datastax.spark.connector.util.ReflectionUtil $ .constructorParams（ReflectionUtil.scala：63）com.datastax.spark .connector.mapper.DefaultColumnMapper。（DefaultColumnMapper.scala：45）位于com.datastax.spark.connector.mapper.LowPriorityColumnMapper $ class.defaultColumnMapper（ColumnMapper.scala：51），位于om.datastax.spark.connector.mapper.ColumnMapper $ .defaultColumnMapper（ColumnMapper.scala：55）

hadoop scala cassandra apache-spark apache-spark-sql

Rea*_*ger

2018 03-07

1
推荐指数

1
解决办法

2248
查看次数