小编bla*_*hop的帖子

pyspark:如何按年/月/日/小时子目录编写数据帧分区?

我有如下制表符分隔的数据(csv 文件):

201911240130 a
201911250132 b
201911250143 c
201911250223 z
201911250224 d
...
Run Code Online (Sandbox Code Playgroud)

我想按年、月、日、小时编写目录组。

hdfs://dest/2019/11/24/01/xxxx.csv
hdfs://dest/2019/11/25/01/xxxx.csv
hdfs://dest/2019/11/25/02/xxxx.csv
Run Code Online (Sandbox Code Playgroud)

如何按 yyyy/mm/dd/hh 写入分区?

apache-spark apache-spark-sql pyspark pyspark-sql

1
推荐指数
1
解决办法
3031
查看次数

如何在 pyspark 中按列名称映射值

我想要什么 - 是将列名映射到键中。例如:

#+-------+----------+
#|key1   |key2      |
#+-------+----------+
#|value1 |value2    |
#|value3 |value4    |
#+-------+----------+
Run Code Online (Sandbox Code Playgroud)

将转变为

#+-------+----------+
#|   keys|values    |
#+-------+----------+
#|key1   |value1    |
#|key1   |value2    |
#|key2   |value3    |
#|key2   |value4    |
#+-------+----------+
Run Code Online (Sandbox Code Playgroud)

在 HiveQL 中我可以写类似的东西

select distinct key, velue
    from xxx
    lateral view explode(map(
            'key1', key1,
            'key2', key2) tab as key, value
Run Code Online (Sandbox Code Playgroud)

但是在pyspark上怎么写呢?我可以使用 createtemptable 但我认为这不是最好的解决方案/

python dataframe apache-spark apache-spark-sql pyspark

1
推荐指数
1
解决办法
2436
查看次数

从 pyspark 会话中获取 hive 和 hadoop 版本

我在带有配置单元的 hadoop 集群上使用 pyspark。我知道可以从命令行 ( spark-submit --version, hive --version, hadoop version)获取 spark、hive 和 hadoop 版本,但是我如何从 pyspark 中执行相同操作?

获得 spark 版本很容易:

print("Spark version = ".format(spark._sc.version))
Run Code Online (Sandbox Code Playgroud)

我不知道如何获得 hive & hadoop 版本。有人知道吗?TIA

python apache-spark pyspark

1
推荐指数
2
解决办法
1566
查看次数

在Windows XP上执行TCL

我安装tcl803.exe在我的windows XP操作系统上,我的TCL路径是C:\Tcl.现在我无法在Windows XP操作系统上执行TCL脚本.请帮我.我在这里很新.请告诉我每一个步骤.这是我的TCL脚本.我在记事本中写下并将其保存为a.tcl扩展名.

set x 50
set y 400
puts stdout "$x+$y=[expr {$x+$y}]"
puts stdout "-The addition of two variables $x and $y is [expr $x+$y]"
Run Code Online (Sandbox Code Playgroud)

tcl

0
推荐指数
2
解决办法
6429
查看次数

返回确认取消按钮不起作用

我在树枝上有这个链接:

<a href="{{ path('relation-delete', {'id': c.getCustomerId}) }}" 
   onclick="return confirm('{% trans %}relation.delete{% endtrans %}');"
   class="tip" data-original-title="Verwijder klant {{ c.getCustomerName }}">
Run Code Online (Sandbox Code Playgroud)

源代码中的HTML:

<a href="/app_dev.php/projects/delete/1" class="tip" 
  data-original-title="Verwijder project Lantaarn plaatsen" 
  onclick="return confirm('Verwijderen');">

<button class="btn btn-danger"><i class="fa fa-times fa-fw"></i></button></a>`
Run Code Online (Sandbox Code Playgroud)

onlick确认取消按钮不会取消操作,而是继续执行。有人知道此退货确认有什么问题吗?

html javascript php symfony twig

0
推荐指数
2
解决办法
6566
查看次数

升级集群的 Databricks 运行时后调试 PySpark 时出错

我已将 Azure Databricks 群集从运行时 5.5LTS 更新到 7.3LTS。现在我在 VSCode 中调试时遇到错误。我已经更新了我的 Anaconda 连接,如下所示:

> conda create --name dbconnect python=3.7
> conda activate dbconnect
> pip uninstall pyspark
> pip install -U databricks-connect==7.3.*
> databricks-connect configure
> databricks-connect test
Run Code Online (Sandbox Code Playgroud)

到目前为止一切顺利,但现在我正在尝试调试以下内容

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
setting = spark.conf.get("spark.master")

if "local" in setting:
    from pyspark.dbutils import DBUtils
    dbutils = DBUtils(spark.sparkContext)
Run Code Online (Sandbox Code Playgroud)

在 上dbutils = DBUtils(spark.sparkContext),它抛出异常

发生异常:AttributeError“SparkContext”对象没有属性“conf”

我尝试过创建conf

from pyspark.dbutils import DBUtils
import pyspark
conf = pyspark.SparkConf()
pyspark.SparkContext.getOrCreate(conf=conf)
dbutils = DBUtils(spark.sparkContext) …
Run Code Online (Sandbox Code Playgroud)

python pyspark azure-databricks databricks-connect

0
推荐指数
1
解决办法
313
查看次数