小编Shu*_*Shu的帖子

如何使用 PySpark 从数据框中获取 1000 条记录并写入文件?

我的数据框中有 100,000 多条记录。我想动态创建一个文件并为每个文件推送 1000 条记录。谁能帮我解决这个问题,先谢谢了。

python-3.x apache-spark apache-spark-sql pyspark

1
推荐指数
1
解决办法
7953
查看次数

PySpark - 从数据框中删除第一行

我有一个带有标题的 .txt 文件,我想将其删除。该文件如下所示:

Entry  Per  Account     Description               
 16524  01  3930621977  TXNPUES                     
191675  01  2368183100  OUNHQEX            
191667  01  3714468136  GHAKASC             
191673  01  2632703881  PAHFSAP              
 80495  01  2766389794  XDZANTV                    
 80507  01  4609266335  BWWYEZL                   
 80509  01  1092717420  QJYPKVO                  
 80497  01  3386366766  SOQLCMU                  
191669  01  5905893739  FYIWNKA             
191671  01  2749355876  CBMJTLP 
Run Code Online (Sandbox Code Playgroud)
Entry  Per  Account     Description               
 16524  01  3930621977  TXNPUES                     
191675  01  2368183100  OUNHQEX            
191667  01  3714468136  GHAKASC             
191673  01  2632703881  PAHFSAP              
 80495  01  2766389794  XDZANTV                    
 80507  01  4609266335  BWWYEZL                   
 80509  01  1092717420  QJYPKVO                  
 80497 …
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas apache-spark pyspark

1
推荐指数
1
解决办法
7825
查看次数

PySpark insertInto 覆盖

我正在尝试将数据框中的数据插入到 Hive 表中。我已经能够成功地使用 df.write.insertInto("db1.table1", overwrite = True).

我只是对这个overwrite = True部分有点困惑——我尝试多次运行它,它似乎是附加的,而不是覆盖的。文档中没有太多内容,但是我什么时候应该将覆盖设置为Falsevs. True

python hive apache-spark pyspark

1
推荐指数
1
解决办法
3576
查看次数

Spark SQL中如何获取列的数据类型?

我想找出表中每一列的数据类型?

例如,假设我的表是使用以下命令创建的:

create table X
(
col1 string,
col2 int,
col3 int
)
Run Code Online (Sandbox Code Playgroud)

我想做一个会输出如下内容的命令:

column datatype
col1  string
col2  int
Run Code Online (Sandbox Code Playgroud)

有这个命令吗?最好是在 SparkSQL 中。但是,如果没有,那么如何使用其他方式获取这些数据呢?我正在使用 Spark sql 查询 Hive 表。也许通过 HIVE 中的元数据?谢谢。

hive apache-spark apache-spark-sql

0
推荐指数
1
解决办法
2万
查看次数