小编cin_n21的帖子

解压缩存储在 Azure Databricks FileStore 中的文件夹

我已将 *.zip 文件夹上传到我的 Azure Datacricks FileStore：

现在我想解压缩文件夹并将其存储在 FileStore 上：dbfs:/FileStore/tables/rfc_model。

我知道这应该很容易，但我在 DB Notebooks 中工作时感到困惑......

谢谢你的帮助！

更新：

我使用这个公式没有成功：

%sh unzip /FileStore/tables/rfc_model.zip

和

%sh unzip dbfs:/FileStore/tables/rfc_model.zip

更新：

我已将@Sim 创建的代码复制到我的 Databricks 笔记本中，但出现此错误：

知道如何解决这个问题吗？

azure apache-spark databricks

5
推荐指数

2
解决办法

3854
查看次数

将 DataFrame 从 Azure Databricks 笔记本写入 Azure DataLake Gen2 表

我创建了一个 DataFrame，我想将其写入/导出到表中的 Azure DataLake Gen2 旁边（需要为此创建新表）。

将来我还需要使用新的 DataFrame 更新此 Azure DL Gen2 表。

在 Azure Databricks 中，我创建了一个连接 Azure Databricks -> Azure DataLake 来查看我的文件：

感谢如何在 Spark / pyspark 中编写它的帮助。

谢谢你！

azure apache-spark pyspark databricks

5
推荐指数

1
解决办法

9242
查看次数

具有距离条件的最近邻连接

在这个问题中，我提到了这个项目：

\n\n

\n
https://automating-gis-processes.github.io/site/master/notebooks/L3/nearest-neighbor-faster.html
\n

\n\n

我们有两个 GeoDataFrame：

\n\n

建筑物：

\n\n

             name                   geometry\n0            None  POINT (24.85584 60.20727)\n1     Uimastadion  POINT (24.93045 60.18882)\n2            None  POINT (24.95113 60.16994)\n3  Hartwall Arena  POINT (24.92918 60.20570)\n

Run Code Online (Sandbox Code Playgroud)\n\n

和巴士站：

\n\n

     stop_name   stop_lat   stop_lon  stop_id                   geometry\n0  Ritarihuone  60.169460  24.956670  1010102  POINT (24.95667 60.16946)\n1   Kirkkokatu  60.171270  24.956570  1010103  POINT (24.95657 60.17127)\n2   Kirkkokatu  60.170293  24.956721  1010104  POINT (24.95672 60.17029)\n3    Vironkatu  60.172580  24.956554  1010105  POINT (24.95655 60.17258)\n

Run Code Online (Sandbox Code Playgroud)\n\n

申请后

\n\n

\n
sklearn.neighbors 导入 BallTree
\n

\n\n

from sklearn.neighbors import BallTree\nimport numpy …

Run Code Online (Sandbox Code Playgroud)

python pandas scikit-learn geopandas

5
推荐指数

1
解决办法

1199
查看次数

如何爆炸多列，不同类型和不同长度的列？

我有一个具有不同时间周期（1 / 6、3 / 6、6 / 6等）的列的DF，并且想“分解”所有列以创建新的DF，其中每行是1 / 6个周期。

from pyspark import Row 
from pyspark.sql import SparkSession 
from pyspark.sql.functions import explode, arrays_zip, col

spark = SparkSession.builder \
    .appName('DataFrame') \
    .master('local[*]') \
    .getOrCreate()

df = spark.createDataFrame([Row(a=1, b=[1, 2, 3, 4, 5, 6], c=[11, 22, 33], d=['foo'])])

|  a|                 b|           c|    d|
+---+------------------+------------+-----+
|  1|[1, 2, 3, 4, 5, 6]|[11, 22, 33]|[foo]|
+---+------------------+------------+-----+

Run Code Online (Sandbox Code Playgroud)

我正在爆炸：

df2 = (df.withColumn("tmp", arrays_zip("b", "c", "d"))
       .withColumn("tmp", explode("tmp"))
       .select("a", col("tmp.b"), col("tmp.c"), "d"))

Run Code Online (Sandbox Code Playgroud)

但是输出不是我想要的：

|  a|  b|   c|    d| …

Run Code Online (Sandbox Code Playgroud)

3
推荐指数

1
解决办法

265
查看次数

Pandas - 从列表中的字典值映射列

我有一个简单的 DataFrame 和一个字典，如：

import pandas as pd

dict = {'x' : ['a', 'c'], 'y': ['b', 'd']}
df = pd.DataFrame({'col1': {0: 'a', 1: 'b', 2: 'c', 3:'d'}})

  col1
0    a
1    b
2    c
3    d

Run Code Online (Sandbox Code Playgroud)

现在我想对字典进行“反向映射”以获得另一个“col2”，以及像这样的 DataFrame：

  col1 col2
0    a    x
1    b    y
2    c    x
3    d    y

Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助！

3
推荐指数

1
解决办法

555
查看次数

标签统计

apache-spark ×2

scikit-learn ×1