小编use*_*193的帖子

SQL workbench连接到Redshift时出错

我正在尝试使用sqlwork bench在aws redshift中创建一个表.我能够连接redshift但在执行下面的脚本时,我收到连接中止错误.如果有人有任何解决方案,请告诉我.

CREATE  TABLE actual_report (
  type1 varchar(40),
  Jj_calendar_Order_Month varchar(40),
  Jj_Calendar_Order_Year varchar(40),
  Product_major_Code_description varchar(40),
  Product_minor_Code varchar(40),
  Product_part_number varchar(40),
  Product_Minor_Description varchar(40),
  Order_Quantity decimal(20),
  Order_Item_Unit_Price decimal(10,2),
  country varchar(40))
Run Code Online (Sandbox Code Playgroud)

执行SQL命令时发生错误:CREATE TABLE actual_report(type1 varchar(40),Jj_calendar_Order_Month varchar(40),Jj_Calendar_Order_Year varchar(40),Product_major_Code_descripti ...

Amazon无效操作:当前事务中止,命令忽略直到事务块结束; 执行时间:0.22s 1语句失败.

postgresql amazon-web-services amazon-redshift

14
推荐指数
4
解决办法
2万
查看次数

如何使用wild字符从aws s3中选择文件

我在s3存储桶中有很多文件,我想复制那些开始日期为2012的文件.下面的命令会复制所有文件.

aws s3 cp s3://bp-dev/bp_source_input/ C:\Business_Panorama\nts\data\in --recursive  --include "201502_nts_*.xlsx"
Run Code Online (Sandbox Code Playgroud)

amazon-s3 amazon-web-services amazon-emr

12
推荐指数
2
解决办法
2万
查看次数

如何在连接后在Pyspark Dataframe中选择和排序多个列

我想从现有数据框(在连接后创建)中选择多个列,并希望将fileds命令为我的目标表结构.怎么做到呢 ?接下来我使用的是下面的.在这里,我可以选择所需的必要列但不能按顺序排列.

Required (Target Table structure) :
hist_columns = ("acct_nbr","account_sk_id", "zip_code","primary_state", "eff_start_date" ,"eff_end_date","eff_flag")

account_sk_df = hist_process_df.join(broadcast(df_sk_lkp) ,'acct_nbr','inner' )
account_sk_df_ld = account_sk_df.select([c for c in account_sk_df.columns if c in hist_columns])

>>> account_sk_df
DataFrame[acct_nbr: string, primary_state: string, zip_code: string, eff_start_date: string, eff_end_date: string, eff_flag: string, hash_sk_id: string, account_sk_id: int]


>>> account_sk_df_ld
DataFrame[acct_nbr: string, primary_state: string, zip_code: string, eff_start_date: string, eff_end_date: string, eff_flag: string, account_sk_id: int]
Run Code Online (Sandbox Code Playgroud)

account_sk_id需要排在第二位.最好的方法是什么?

python apache-spark apache-spark-sql pyspark

10
推荐指数
1
解决办法
2万
查看次数

Google Cloud Data Catalog 是否可以用作 Dataproc (Spark/Hive/Presto) 以及 GCS 文件的元数据存储库?

我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不会存储不属于 Hive 外部表的 GCS 文件的任何信息。

谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?

google-cloud-storage google-cloud-platform google-cloud-dataproc google-data-catalog

5
推荐指数
1
解决办法
1090
查看次数

如何使用 sqoop 在 Hive 中创建外部表。需要建议

使用 sqoop 我可以创建托管表,但不能创建外部表。

请让我知道从数据仓库卸载数据并将其加载到 Hive 外部表中的最佳实践是什么。

1.仓库中的表是分区的。有些是按日期分区,有些是按状态分区。

请将您的想法或做法应用于生产环境。

hadoop hive sqoop

2
推荐指数
1
解决办法
1万
查看次数

Scala split函数错误

您能更正我的代码吗?我正在尝试通过拆分 x11 来打印 x22。

object ScalaString {

  def main(args: Array[String]): Unit = {
    var x =" Hello world"
    x.filter(_!='l').foreach(println)
    //for(c <- x) println(c)
   println(x.stripPrefix(" ").drop(2).take(2).capitalize)
    **var x11=" hello|world|india"
    var x22=( x11.split("|").map(_.trim()))
    println(x22.toString())**

  }

}

output:
w
o
r
d
Ll
**[Ljava.lang.String;@56431753**
Run Code Online (Sandbox Code Playgroud)

scala

1
推荐指数
1
解决办法
250
查看次数