小编abi*_*sis的帖子

将 GitHub 存储库导入 Databricks 社区版

我正在尝试从 GitHub 中的公共存储库导入一些数据,以便从我的 Databricks 笔记本中使用它。

到目前为止,我尝试按照此处所述将我的 Databricks 帐户与我的 GitHub 连接,但没有结果,因为 GitHub 支持似乎附带了一些非社区许可。当我尝试设置 GitHub 集成所需的 GitHub 令牌时,我收到以下消息:

在此输入图像描述

之前在官方 Databricks 论坛上也有人问过同样的问题。

在 databricks 社区版上导入和存储 GitHub 存储库的最佳方法是什么?

github apache-spark databricks

1
推荐指数
1
解决办法
1万
查看次数

pyspark 在数据框中传递多个选项

我是 python 和 pyspark 的新手。我想知道如何在 pyspark 中编写以下 spark 数据帧函数:

val df = spark.read.format("jdbc").options(
       Map(
        "url" -> "jdbc:someDB", 
        "user" -> "root", 
        "password" -> "password", 
        "dbtable" -> "tableName", 
        "driver" -> "someDriver")).load()
Run Code Online (Sandbox Code Playgroud)

我试着在pyspark中写如下。但是,得到语法错误:

df = spark.read.format("jdbc").options(
      map(lambda : ("url","jdbc:someDB"), ("user","root"), ("password","password"), ("dbtable","tableName"), ("driver","someDriver"))).load()
Run Code Online (Sandbox Code Playgroud)

提前致谢

apache-spark-sql pyspark-sql

0
推荐指数
1
解决办法
1998
查看次数

如何将 Scala 数据框中的所有十进制列转换为双精度类型?

我有一个十进制和字符串类型的数据框。我想将所有十进制列转换为 double 而不命名它们。我试过这个没有成功。有点新的火花。

>df.printSchema

root

 |-- var1: decimal(38,10) (nullable = true)
 |-- var2: decimal(38,10) (nullable = true)
 |-- var3: decimal(38,10) (nullable = true)
…
150 more decimal and string columns
Run Code Online (Sandbox Code Playgroud)

我尝试:

import org.apache.spark.sql.types._

val cols = df.columns.map(x => {
    if (x.dataType == DecimalType(38,0)) col(x).cast(DoubleType) 
    else col(x)
})
Run Code Online (Sandbox Code Playgroud)

我得到

<console>:30: error: value dataType is not a member of String
           if (x.dataType == DecimalType(38,0)) col(x).cast(DoubleType)
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql

0
推荐指数
1
解决办法
3028
查看次数