小编phe*_*poo的帖子

如何在Python中创建示例Spark dataFrame?

我想创建一个示例数据框,但是以下代码不起作用:

df = spark.createDataFrame(["10","11","13"], ("age"))

## ValueError
## ...
## ValueError: Could not parse datatype: age
Run Code Online (Sandbox Code Playgroud)

预期结果是:

age
10
11
13
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark

9
推荐指数
4
解决办法
1万
查看次数

如何限制访问电报机器人

当我向Telegram Bot发送消息时,它没有任何问题.

我想限制访问,以便我和只有我可以向它发送消息.

我怎样才能做到这一点?

python-telegram-bot telegram-bot

7
推荐指数
4
解决办法
7979
查看次数

Spark DataFrame分区和镶木地板分区

  1. 我在列上使用分区来将数据存储在拼花中。但我看到没有。实木复合地板分区文件的编号与否不同。Rdd分区。rdd分区和镶木地板分区之间没有相关性吗?

  2. 当我将数据写入镶木地板分区并使用Rdd重新分区,然后从镶木地板分区读取数据时,读/写期间rdd分区号相同时是否有任何条件?

  3. 使用列ID存储数据框和通过相同的列ID重新分区数据框有何不同?

  4. 在考虑Spark中联接的性能时,我们应该考虑进行存储分区或重新分区(或两者都考虑)

apache-spark parquet

4
推荐指数
1
解决办法
4467
查看次数

将.deflate文件解压缩为HDFS中的文本,并将结果复制到本地

运行sqoop作业后,我获得了文件.deflate扩展名(默认情况下配置了压缩).我知道我可以使用以下命令显示文件内容:

hadoop fs -text  <file>
Run Code Online (Sandbox Code Playgroud)

如何将此结果复制到本地文件夹?

hadoop deflate hdfs sqoop

1
推荐指数
1
解决办法
5527
查看次数

引发选择并添加具有别名的列

我想选择几列,添加几列或除以某些列,并用空格填充它们,并以新名称存储它们作为别名。例如,SQL中的内容应类似于:

select "   " as col1, b as b1, c+d as e from table 
Run Code Online (Sandbox Code Playgroud)

如何在Spark中实现这一目标?

hadoop scala bigdata apache-spark

0
推荐指数
2
解决办法
6298
查看次数

Scala地图创建

我想创建一个包含10000个元素的地图,但所有元素都应该相同.

所以我希望地图看起来像这样:[(1,1)(1,1)(1,1)(1,1)(1,1)(1,1)(1,1)...].我知道如何指定一系列值然后从中创建一个映射,但是如何使用相同的重复值?

跟进问题:

是什么之间的区别RDD[(Int, Int)]List[(Int, Int)]?我在做:

val rdd: RDD[(Int, Int)] = (1 to 10).map(i => (1,1)).toList
Run Code Online (Sandbox Code Playgroud)

但是我遇到了类型不匹配错误.我想要一个RDD[(Int, Int)]我提到的内容,我该怎么做?

scala apache-spark

-2
推荐指数
1
解决办法
77
查看次数