我的数据框中有 100,000 多条记录。我想动态创建一个文件并为每个文件推送 1000 条记录。谁能帮我解决这个问题,先谢谢了。
我有一个带有标题的 .txt 文件,我想将其删除。该文件如下所示:
Entry Per Account Description
16524 01 3930621977 TXNPUES
191675 01 2368183100 OUNHQEX
191667 01 3714468136 GHAKASC
191673 01 2632703881 PAHFSAP
80495 01 2766389794 XDZANTV
80507 01 4609266335 BWWYEZL
80509 01 1092717420 QJYPKVO
80497 01 3386366766 SOQLCMU
191669 01 5905893739 FYIWNKA
191671 01 2749355876 CBMJTLP
Run Code Online (Sandbox Code Playgroud)
Entry Per Account Description
16524 01 3930621977 TXNPUES
191675 01 2368183100 OUNHQEX
191667 01 3714468136 GHAKASC
191673 01 2632703881 PAHFSAP
80495 01 2766389794 XDZANTV
80507 01 4609266335 BWWYEZL
80509 01 1092717420 QJYPKVO
80497 …Run Code Online (Sandbox Code Playgroud) 我正在尝试将数据框中的数据插入到 Hive 表中。我已经能够成功地使用
df.write.insertInto("db1.table1", overwrite = True).
我只是对这个overwrite = True部分有点困惑——我尝试多次运行它,它似乎是附加的,而不是覆盖的。文档中没有太多内容,但是我什么时候应该将覆盖设置为Falsevs. True?
我想找出表中每一列的数据类型?
例如,假设我的表是使用以下命令创建的:
create table X
(
col1 string,
col2 int,
col3 int
)
Run Code Online (Sandbox Code Playgroud)
我想做一个会输出如下内容的命令:
column datatype
col1 string
col2 int
Run Code Online (Sandbox Code Playgroud)
有这个命令吗?最好是在 SparkSQL 中。但是,如果没有,那么如何使用其他方式获取这些数据呢?我正在使用 Spark sql 查询 Hive 表。也许通过 HIVE 中的元数据?谢谢。