小编vva*_*zza的帖子

迭代数据帧中的每一行,将其存储在 val 中并作为参数传递给 Spark SQL 查询

我试图从查找表(3 行和 3 列)中获取行并逐行迭代并将每行中的值作为参数传递给 SPARK SQL。

DB | TBL   | COL
----------------
db | txn   | ID

db | sales | ID

db | fee   | ID
Run Code Online (Sandbox Code Playgroud)

我在 spark shell 中尝试了一行,它奏效了。但我发现很难遍历行。

val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val db_name:String = "db"

val tbl_name:String = "transaction"

val unique_col:String = "transaction_number"

val dupDf = sqlContext.sql(s"select count(*), transaction_number from $db_name.$tbl_name group by $unique_col having count(*)>1") 
Run Code Online (Sandbox Code Playgroud)

请让我知道如何遍历行并作为参数传递?

scala dataframe apache-spark apache-spark-sql

3
推荐指数
1
解决办法
3236
查看次数

在 Amazon S3 中实施 CDC

我对云空间相当陌生。作为我们当前项目的一部分,我们正在尝试在 Amazon S3 存储桶中创建数据湖。将会有另一个 S3 层,其中包含前一层发生的 CDC。架构团队建议使用 Talend 或 Streamsets。是否有其他方法可以将 CDC 从 S3 实施到另一个 S3 存储桶?

cdc amazon-s3 amazon-web-services aws-lambda

0
推荐指数
1
解决办法
4718
查看次数

将包含项目和计数的字典转换为项目列表

我正在尝试将包含项目和计数的python字典转换为项目列表

items = {"hello":2,"world":1}

["hello","hello","world"]

请帮助我如何处理这种逻辑

python arrays dictionary list

-1
推荐指数
1
解决办法
38
查看次数