小编bla*_*hop的帖子

pyspark：如何按年/月/日/小时子目录编写数据帧分区？

我有如下制表符分隔的数据（csv 文件）：

201911240130 a
201911250132 b
201911250143 c
201911250223 z
201911250224 d
...

Run Code Online (Sandbox Code Playgroud)

我想按年、月、日、小时编写目录组。

hdfs://dest/2019/11/24/01/xxxx.csv
hdfs://dest/2019/11/25/01/xxxx.csv
hdfs://dest/2019/11/25/02/xxxx.csv

Run Code Online (Sandbox Code Playgroud)

如何按 yyyy/mm/dd/hh 写入分区？

apache-spark apache-spark-sql pyspark pyspark-sql

And*_*hoi

2019 12-11

1
推荐指数

1
解决办法

3031
查看次数

如何在 pyspark 中按列名称映射值

我想要什么 - 是将列名映射到键中。例如：

#+-------+----------+
#|key1   |key2      |
#+-------+----------+
#|value1 |value2    |
#|value3 |value4    |
#+-------+----------+

Run Code Online (Sandbox Code Playgroud)

将转变为

#+-------+----------+
#|   keys|values    |
#+-------+----------+
#|key1   |value1    |
#|key1   |value2    |
#|key2   |value3    |
#|key2   |value4    |
#+-------+----------+

Run Code Online (Sandbox Code Playgroud)

在 HiveQL 中我可以写类似的东西

select distinct key, velue
    from xxx
    lateral view explode(map(
            'key1', key1,
            'key2', key2) tab as key, value

Run Code Online (Sandbox Code Playgroud)

但是在pyspark上怎么写呢？我可以使用 createtemptable 但我认为这不是最好的解决方案/

python dataframe apache-spark apache-spark-sql pyspark

Mak*_*tin

2021 02-20

1
推荐指数

1
解决办法

2436
查看次数

从 pyspark 会话中获取 hive 和 hadoop 版本

我在带有配置单元的 hadoop 集群上使用 pyspark。我知道可以从命令行 ( spark-submit --version, hive --version, hadoop version)获取 spark、hive 和 hadoop 版本，但是我如何从 pyspark 中执行相同操作？

获得 spark 版本很容易：

print("Spark version = ".format(spark._sc.version))

Run Code Online (Sandbox Code Playgroud)

我不知道如何获得 hive & hadoop 版本。有人知道吗？TIA

python apache-spark pyspark

jam*_*iet

2021 03-12

1
推荐指数

2
解决办法

1566
查看次数

在Windows XP上执行TCL

我安装tcl803.exe在我的windows XP操作系统上,我的TCL路径是C:\Tcl.现在我无法在Windows XP操作系统上执行TCL脚本.请帮我.我在这里很新.请告诉我每一个步骤.这是我的TCL脚本.我在记事本中写下并将其保存为a.tcl扩展名.

set x 50
set y 400
puts stdout "$x+$y=[expr {$x+$y}]"
puts stdout "-The addition of two variables $x and $y is [expr $x+$y]"

Run Code Online (Sandbox Code Playgroud)

tcl

gal*_*ese

2015 04-17

0
推荐指数

2
解决办法

6429
查看次数

返回确认取消按钮不起作用

我在树枝上有这个链接：

<a href="{{ path('relation-delete', {'id': c.getCustomerId}) }}" 
   onclick="return confirm('{% trans %}relation.delete{% endtrans %}');"
   class="tip" data-original-title="Verwijder klant {{ c.getCustomerName }}">

Run Code Online (Sandbox Code Playgroud)

源代码中的HTML：

<a href="/app_dev.php/projects/delete/1" class="tip" 
  data-original-title="Verwijder project Lantaarn plaatsen" 
  onclick="return confirm('Verwijderen');">

<button class="btn btn-danger"><i class="fa fa-times fa-fw"></i></button></a>`

Run Code Online (Sandbox Code Playgroud)

onlick确认取消按钮不会取消操作，而是继续执行。有人知道此退货确认有什么问题吗？

html javascript php symfony twig

Tom*_*mie

2014 08-20

0
推荐指数

2
解决办法

6566
查看次数

升级集群的 Databricks 运行时后调试 PySpark 时出错

我已将 Azure Databricks 群集从运行时 5.5LTS 更新到 7.3LTS。现在我在 VSCode 中调试时遇到错误。我已经更新了我的 Anaconda 连接，如下所示：

> conda create --name dbconnect python=3.7
> conda activate dbconnect
> pip uninstall pyspark
> pip install -U databricks-connect==7.3.*
> databricks-connect configure
> databricks-connect test

Run Code Online (Sandbox Code Playgroud)

到目前为止一切顺利，但现在我正在尝试调试以下内容

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()
setting = spark.conf.get("spark.master")

if "local" in setting:
    from pyspark.dbutils import DBUtils
    dbutils = DBUtils(spark.sparkContext)

Run Code Online (Sandbox Code Playgroud)

在上dbutils = DBUtils(spark.sparkContext)，它抛出异常

发生异常：AttributeError“SparkContext”对象没有属性“conf”

我尝试过创建conf

from pyspark.dbutils import DBUtils
import pyspark
conf = pyspark.SparkConf()
pyspark.SparkContext.getOrCreate(conf=conf)
dbutils = DBUtils(spark.sparkContext) …

Run Code Online (Sandbox Code Playgroud)

python pyspark azure-databricks databricks-connect

Con*_*ell

2021 03-18

0
推荐指数

1
解决办法

313
查看次数