小编use*_*073的帖子

将 S3 安装到数据块

我正在尝试了解如何mount运作。我有一个名为的 S3 存储桶myB，其中有一个名为的文件夹test。我使用了安装

var AwsBucketName = "myB"
val MountName = "myB"

Run Code Online (Sandbox Code Playgroud)

我的问题是：它是否在 S3 和 databricks 之间创建链接myB，并且 databricks 是否会访问所有文件（包括文件test夹下的文件）？（或者如果我使用 var 进行挂载，AwsBucketName = "myB/test"它是否只将 databricks 链接到该文件夹test，而不链接到该文件夹之外的任何其他文件？）

如果是这样，我该如何说列出test文件夹中的文件、读取该文件或在 scala 中对 csv 文件进行 count() ？我做了一个display(dbutils.fs.ls("/mnt/myB"))，它只显示测试文件夹，但不显示其中的文件。这里很新。非常感谢您的帮助！

scala amazon-s3 amazon-web-services databricks

use*_*073

2017 05-18

5
推荐指数

1
解决办法

1万
查看次数

如何在JSON.stringify()中将值保持为数字

我正在尝试将JSON.stringify()一些值解析为JSON格式.这amount是一个字符串变量.我希望JSON格式的最终值为数字,但我目前的方式不起作用.它仍然像"price":"1.00"以后一样出现JSON.stringify().如何确保JSON中的最终值是一个数字？谢谢你的帮助!

我目前的代码:

var data = JSON.stringify({
 "payer": "a cat",     
 "price": parseFloat(amount).toFixed(2),

});

Run Code Online (Sandbox Code Playgroud)

javascript string parsing json numbers

use*_*073

lucky-day

3
推荐指数

1
解决办法

5312
查看次数

spark为另一个df上的condtions添加col到数据帧

我有以下问题:我想在RealCity数据框A中添加一个列,当City值为'noClue'时,我从df B中选择什么,使用Key来获取City.

表A:

   +---------+--------+
   |     Key |    City|   
   +---------+--------+
   |a        |    PDX |   
   +---------+--------+
   |b        | noClue |

Run Code Online (Sandbox Code Playgroud)

表B:

   +---------+--------+
   |     Key |  Name  |   
   +---------+--------+
   |c        |    SYD |   
   +---------+--------+
   |b        |   AKL  |

Run Code Online (Sandbox Code Playgroud)

我想使用.withColumn,when但我不能通过这种方式选择值另一个表(表B).这样做的好方法是什么？非常感谢!

scala dataframe apache-spark

use*_*073

lucky-day

0
推荐指数

1
解决办法

334
查看次数

PySpark-如何找出数组列中最常出现的前 n 个值？

对于下面的示例数据，想知道如何找出列中最常出现的值colour。的数据类型colour是WrappedArray。数组中可能有 n 个元素。在此示例中，颜色应为黄色，然后是出现两次的蓝色。非常感谢您的帮助。

Name   Colour 
 A      ('blue','yellow')
 B      ('pink', 'yellow')
 C      ('green', 'black')
 D      ('yellow','orange','blue')

Run Code Online (Sandbox Code Playgroud)

python arrays apache-spark apache-spark-sql pyspark

use*_*073

2022 11-08

0
推荐指数

1
解决办法

190
查看次数

标签统计

apache-spark ×2

scala ×2

amazon-s3 ×1

amazon-web-services ×1

apache-spark-sql ×1

arrays ×1

databricks ×1

dataframe ×1

javascript ×1

json ×1

numbers ×1

parsing ×1

pyspark ×1

python ×1

string ×1

将 S3 安装到数据块

如何在JSON.stringify()中将值保持为数字

spark为另一个df上的condtions添加col到数据帧

PySpark-如何找出数组列中最常出现的前 n 个值？

标签 统计

小编use_073的帖子

标签统计