我正在尝试了解如何mount运作。我有一个名为 的 S3 存储桶myB,其中有一个名为 的文件夹test。我使用了安装
var AwsBucketName = "myB"
val MountName = "myB"
Run Code Online (Sandbox Code Playgroud)
我的问题是:它是否在 S3 和 databricks 之间创建链接myB,并且 databricks 是否会访问所有文件(包括文件test夹下的文件)?(或者如果我使用 var 进行挂载,AwsBucketName = "myB/test"它是否只将 databricks 链接到该文件夹test,而不链接到该文件夹之外的任何其他文件?)
如果是这样,我该如何说列出test文件夹中的文件、读取该文件或在 scala 中对 csv 文件进行 count() ?我做了一个display(dbutils.fs.ls("/mnt/myB")),它只显示测试文件夹,但不显示其中的文件。这里很新。非常感谢您的帮助!
我正在尝试将JSON.stringify()一些值解析为JSON格式.这amount是一个字符串变量.我希望JSON格式的最终值为数字,但我目前的方式不起作用.它仍然像"price":"1.00"以后一样出现JSON.stringify().如何确保JSON中的最终值是一个数字?谢谢你的帮助!
我目前的代码:
var data = JSON.stringify({
"payer": "a cat",
"price": parseFloat(amount).toFixed(2),
});
Run Code Online (Sandbox Code Playgroud) 我有以下问题:我想在RealCity数据框A中添加一个列,当City值为'noClue'时,我从df B中选择什么,使用Key来获取City.
表A:
+---------+--------+
| Key | City|
+---------+--------+
|a | PDX |
+---------+--------+
|b | noClue |
Run Code Online (Sandbox Code Playgroud)
表B:
+---------+--------+
| Key | Name |
+---------+--------+
|c | SYD |
+---------+--------+
|b | AKL |
Run Code Online (Sandbox Code Playgroud)
我想使用.withColumn,when但我不能通过这种方式选择值另一个表(表B).这样做的好方法是什么?非常感谢!
对于下面的示例数据,想知道如何找出列中最常出现的值colour。的数据类型colour是WrappedArray。数组中可能有 n 个元素。在此示例中,颜色应为黄色,然后是出现两次的蓝色。非常感谢您的帮助。
Name Colour
A ('blue','yellow')
B ('pink', 'yellow')
C ('green', 'black')
D ('yellow','orange','blue')
Run Code Online (Sandbox Code Playgroud) apache-spark ×2
scala ×2
amazon-s3 ×1
arrays ×1
databricks ×1
dataframe ×1
javascript ×1
json ×1
numbers ×1
parsing ×1
pyspark ×1
python ×1
string ×1