我正在尝试使用sqlwork bench在aws redshift中创建一个表.我能够连接redshift但在执行下面的脚本时,我收到连接中止错误.如果有人有任何解决方案,请告诉我.
CREATE TABLE actual_report (
type1 varchar(40),
Jj_calendar_Order_Month varchar(40),
Jj_Calendar_Order_Year varchar(40),
Product_major_Code_description varchar(40),
Product_minor_Code varchar(40),
Product_part_number varchar(40),
Product_Minor_Description varchar(40),
Order_Quantity decimal(20),
Order_Item_Unit_Price decimal(10,2),
country varchar(40))
Run Code Online (Sandbox Code Playgroud)
执行SQL命令时发生错误:CREATE TABLE actual_report(type1 varchar(40),Jj_calendar_Order_Month varchar(40),Jj_Calendar_Order_Year varchar(40),Product_major_Code_descripti ...
Amazon无效操作:当前事务中止,命令忽略直到事务块结束; 执行时间:0.22s 1语句失败.
我在s3存储桶中有很多文件,我想复制那些开始日期为2012的文件.下面的命令会复制所有文件.
aws s3 cp s3://bp-dev/bp_source_input/ C:\Business_Panorama\nts\data\in --recursive --include "201502_nts_*.xlsx"
Run Code Online (Sandbox Code Playgroud) 我想从现有数据框(在连接后创建)中选择多个列,并希望将fileds命令为我的目标表结构.怎么做到呢 ?接下来我使用的是下面的.在这里,我可以选择所需的必要列但不能按顺序排列.
Required (Target Table structure) :
hist_columns = ("acct_nbr","account_sk_id", "zip_code","primary_state", "eff_start_date" ,"eff_end_date","eff_flag")
account_sk_df = hist_process_df.join(broadcast(df_sk_lkp) ,'acct_nbr','inner' )
account_sk_df_ld = account_sk_df.select([c for c in account_sk_df.columns if c in hist_columns])
>>> account_sk_df
DataFrame[acct_nbr: string, primary_state: string, zip_code: string, eff_start_date: string, eff_end_date: string, eff_flag: string, hash_sk_id: string, account_sk_id: int]
>>> account_sk_df_ld
DataFrame[acct_nbr: string, primary_state: string, zip_code: string, eff_start_date: string, eff_end_date: string, eff_flag: string, account_sk_id: int]
Run Code Online (Sandbox Code Playgroud)
account_sk_id需要排在第二位.最好的方法是什么?
我们使用 MySQL (Cloud SQL) 作为 Dataproc 的元数据存储库。这不会存储不属于 Hive 外部表的 GCS 文件的任何信息。
谁能建议将所有文件/数据详细信息存储在 Google Cloud 的一个目录中的最佳方法?
google-cloud-storage google-cloud-platform google-cloud-dataproc google-data-catalog
使用 sqoop 我可以创建托管表,但不能创建外部表。
请让我知道从数据仓库卸载数据并将其加载到 Hive 外部表中的最佳实践是什么。
1.仓库中的表是分区的。有些是按日期分区,有些是按状态分区。
请将您的想法或做法应用于生产环境。
您能更正我的代码吗?我正在尝试通过拆分 x11 来打印 x22。
object ScalaString {
def main(args: Array[String]): Unit = {
var x =" Hello world"
x.filter(_!='l').foreach(println)
//for(c <- x) println(c)
println(x.stripPrefix(" ").drop(2).take(2).capitalize)
**var x11=" hello|world|india"
var x22=( x11.split("|").map(_.trim()))
println(x22.toString())**
}
}
output:
w
o
r
d
Ll
**[Ljava.lang.String;@56431753**
Run Code Online (Sandbox Code Playgroud) amazon-emr ×1
amazon-s3 ×1
apache-spark ×1
hadoop ×1
hive ×1
postgresql ×1
pyspark ×1
python ×1
scala ×1
sqoop ×1