小编aig*_*fer的帖子

Spark 非确定性 Pandas UDF 会出现什么问题

我正在编写一个需要为基于某些条件匹配的某些组生成 UUID 的过程。我让我的代码正常工作，但我担心在我的 UDF 中创建 UUID 的潜在问题（因此使其变得不确定）。下面是一些代码的简化示例来说明：

from uuid import uuid1

from pyspark.sql import SparkSession
from pyspark.sql.functions import PandasUDFType, pandas_udf

spark = (
    SparkSession.builder.master("local")
    .appName("Word Count")
    .config("spark.some.config.option", "some-value")
    .getOrCreate()
)
df = spark.createDataFrame([["j", 3], ["h", 3], ["a", 2]], ["name", "age"])


@pandas_udf("name string, age integer, uuid string", PandasUDFType.GROUPED_MAP)
def create_uuid(df):
    df["uuid"] = str(uuid1())
    return df


>>> df.groupby("age").apply(create_uuid).show()
+----+---+--------------------+
|name|age|                uuid|
+----+---+--------------------+
|   j|  3|1f8f48ac-0da8-430...|
|   h|  3|1f8f48ac-0da8-430...|
|   a|  2|d5206d03-bcce-445...|
+----+---+--------------------+

Run Code Online (Sandbox Code Playgroud)

这目前适用于在 AWS Glue 上处理超过 20 万条记录的一些数据，我还没有发现任何错误。

我使用uuid1因为它使用节点信息来生成 UUID，从而确保没有 …

python pandas apache-spark apache-spark-sql pyspark

aig*_*fer

2020 05-19

7
推荐指数

1
解决办法

1936
查看次数

不同的 :maxdepth: 用于 toctree (Sphinx) 中的特定条目

我为我构建的库提供了一些基于 Sphinx 的文档，我想显示除更改日志之外的所有页面的扩展目录。我想出了如何通过将更改日志移动到 second 来做到这一点:toctree::，但这有一些奇怪的行为。主要是，当我访问页面时，更改日志会显示在不同的项目符号列表中，而当我使用侧边栏导航时，我只能在每个目录树中导航（如果我单击更改日志，我将不会在侧边栏上显示其他部分）。有一个更好的方法吗？

这是我现在所拥有的：

.. toctree::
   :maxdepth: 5

   getting_started
   examples
   modules

.. toctree::
   :maxdepth: 1

   changelog


Indices and tables
==================

* :ref:`genindex`
* :ref:`modindex`
* :ref:`search`

Run Code Online (Sandbox Code Playgroud)

python python-sphinx toctree

aig*_*fer

2020 06-02

6
推荐指数

1
解决办法

1224
查看次数