我试图从查找表(3 行和 3 列)中获取行并逐行迭代并将每行中的值作为参数传递给 SPARK SQL。
DB | TBL | COL
----------------
db | txn | ID
db | sales | ID
db | fee | ID
Run Code Online (Sandbox Code Playgroud)
我在 spark shell 中尝试了一行,它奏效了。但我发现很难遍历行。
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val db_name:String = "db"
val tbl_name:String = "transaction"
val unique_col:String = "transaction_number"
val dupDf = sqlContext.sql(s"select count(*), transaction_number from $db_name.$tbl_name group by $unique_col having count(*)>1")
Run Code Online (Sandbox Code Playgroud)
请让我知道如何遍历行并作为参数传递?
我对云空间相当陌生。作为我们当前项目的一部分,我们正在尝试在 Amazon S3 存储桶中创建数据湖。将会有另一个 S3 层,其中包含前一层发生的 CDC。架构团队建议使用 Talend 或 Streamsets。是否有其他方法可以将 CDC 从 S3 实施到另一个 S3 存储桶?
我正在尝试将包含项目和计数的python字典转换为项目列表
items = {"hello":2,"world":1}
至
["hello","hello","world"]
请帮助我如何处理这种逻辑
amazon-s3 ×1
apache-spark ×1
arrays ×1
aws-lambda ×1
cdc ×1
dataframe ×1
dictionary ×1
list ×1
python ×1
scala ×1