小编use*_*073的帖子

将 S3 安装到数据块

我正在尝试了解如何mount运作。我有一个名为 的 S3 存储桶myB,其中有一个名为 的文件夹test。我使用了安装

var AwsBucketName = "myB"
val MountName = "myB"
Run Code Online (Sandbox Code Playgroud)

我的问题是:它是否在 S3 和 databricks 之间创建链接myB,并且 databricks 是否会访问所有文件(包括文件test夹下的文件)?(或者如果我使用 var 进行挂载,AwsBucketName = "myB/test"它是否只将 databricks 链接到该文件夹test​​,而不链接到该文件夹​​之外的任何其他文件?)

如果是这样,我该如何说列出test文件夹中的文件、读取该文件或在 scala 中对 csv 文件进行 count() ?我做了一个display(dbutils.fs.ls("/mnt/myB")),它只显示测试文件夹,但不显示其中的文件。这里很新。非常感谢您的帮助!

scala amazon-s3 amazon-web-services databricks

5
推荐指数
1
解决办法
1万
查看次数

如何在JSON.stringify()中将值保持为数字

我正在尝试将JSON.stringify()一些值解析为JSON格式.这amount是一个字符串变量.我希望JSON格式的最终​​值为数字,但我目前的方式不起作用.它仍然像"price":"1.00"以后一样出现JSON.stringify().如何确保JSON中的最终值是一个数字?谢谢你的帮助!

我目前的代码:

var data = JSON.stringify({
 "payer": "a cat",     
 "price": parseFloat(amount).toFixed(2),

});
Run Code Online (Sandbox Code Playgroud)

javascript string parsing json numbers

3
推荐指数
1
解决办法
5312
查看次数

spark为另一个df上的condtions添加col到数据帧

我有以下问题:我想在RealCity数据框A中添加一个列,当City值为'noClue'时,我从df B中选择什么,使用Key来获取City.

表A:

   +---------+--------+
   |     Key |    City|   
   +---------+--------+
   |a        |    PDX |   
   +---------+--------+
   |b        | noClue | 
Run Code Online (Sandbox Code Playgroud)

表B:

   +---------+--------+
   |     Key |  Name  |   
   +---------+--------+
   |c        |    SYD |   
   +---------+--------+
   |b        |   AKL  | 
Run Code Online (Sandbox Code Playgroud)

我想使用.withColumn,when但我不能通过这种方式选择值另一个表(表B).这样做的好方法是什么?非常感谢!

scala dataframe apache-spark

0
推荐指数
1
解决办法
334
查看次数

PySpark-如何找出数组列中最常出现的前 n 个值?

对于下面的示例数据,想知道如何找出列中最常出现的值colour。的数据类型colour是WrappedArray。数组中可能有 n 个元素。在此示例中,颜色应为黄色,然后是出现两次的蓝色。非常感谢您的帮助。

Name   Colour 
 A      ('blue','yellow')
 B      ('pink', 'yellow')
 C      ('green', 'black')
 D      ('yellow','orange','blue')
Run Code Online (Sandbox Code Playgroud)

python arrays apache-spark apache-spark-sql pyspark

0
推荐指数
1
解决办法
190
查看次数