我想使用DataFrameWriter在Spark1.4中的pyspark中将DataFrame保存到S3
df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite')
Run Code Online (Sandbox Code Playgroud)
镶木地板文件转到"/ tmp/hive/warehouse/....",这是我的驱动程序上的本地tmp目录.
我确实在hive-site.xml中将hive.metastore.warehouse.dir设置为"s3a:// ...."位置,但是火花似乎与我的hive仓库设置无关.
我跟着答案是否有可能写一个数据类型转换器来处理postgres JSON列? 实现nodeObject转换器.
然后我尝试使用可更新记录来插入记录,我得到了"org.jooq.exception.SQLDialectNotSupportedException:在方言POSTGRES中不支持类型类org.postgresql.util.PGobject"异常.
我怎么解决这个问题?
以下是我的代码:
TableRecord r = create.newRecord(TABLE);
ObjectNode node = JsonNodeFactory.instance.objectNode();
r.setValue(TABLE.JSON_FIELD, node, new JsonObjectConverter());
r.store();
Run Code Online (Sandbox Code Playgroud) 从Epoch开始,将Pandas Timestamp转换为nano的最有效方法是什么?
import pandas as pd
ns = 1470924597871000000
timestamp = pd.to_datetime(ns, unit="ns")
Run Code Online (Sandbox Code Playgroud)
然后怎么样
timestamp => 1470924597871000000 ns???
Run Code Online (Sandbox Code Playgroud) apache-spark ×1
datetime ×1
epoch ×1
java ×1
jooq ×1
pandas ×1
postgresql ×1
pyspark ×1
python-3.x ×1
sql ×1