小编aig*_*fer的帖子

Spark 非确定性 Pandas UDF 会出现什么问题

我正在编写一个需要为基于某些条件匹配的某些组生成 UUID 的过程。我让我的代码正常工作,但我担心在我的 UDF 中创建 UUID 的潜在问题(因此使其变得不确定)。下面是一些代码的简化示例来说明:

from uuid import uuid1

from pyspark.sql import SparkSession
from pyspark.sql.functions import PandasUDFType, pandas_udf

spark = (
    SparkSession.builder.master("local")
    .appName("Word Count")
    .config("spark.some.config.option", "some-value")
    .getOrCreate()
)
df = spark.createDataFrame([["j", 3], ["h", 3], ["a", 2]], ["name", "age"])


@pandas_udf("name string, age integer, uuid string", PandasUDFType.GROUPED_MAP)
def create_uuid(df):
    df["uuid"] = str(uuid1())
    return df


>>> df.groupby("age").apply(create_uuid).show()
+----+---+--------------------+
|name|age|                uuid|
+----+---+--------------------+
|   j|  3|1f8f48ac-0da8-430...|
|   h|  3|1f8f48ac-0da8-430...|
|   a|  2|d5206d03-bcce-445...|
+----+---+--------------------+
Run Code Online (Sandbox Code Playgroud)

这目前适用于在 AWS Glue 上处理超过 20 万条记录的一些数据,我还没有发现任何错误。

我使用uuid1因为它使用节点信息来生成 UUID,从而确保没有 …

python pandas apache-spark apache-spark-sql pyspark

7
推荐指数
1
解决办法
1936
查看次数

不同的 :maxdepth: 用于 toctree (Sphinx) 中的特定条目

我为我构建的库提供了一些基于 Sphinx 的文档,我想显示除更改日志之外的所有页面的扩展目录。我想出了如何通过将更改日志移动到 second 来做到这一点:toctree::,但这有一些奇怪的行为。主要是,当我访问页面时,更改日志会显示在不同的项目符号列表中,而当我使用侧边栏导航时,我只能在每个目录树中导航(如果我单击更改日志,我将不会在侧边栏上显示其他部分)。有一个更好的方法吗?

这是我现在所拥有的:

.. toctree::
   :maxdepth: 5

   getting_started
   examples
   modules

.. toctree::
   :maxdepth: 1

   changelog


Indices and tables
==================

* :ref:`genindex`
* :ref:`modindex`
* :ref:`search`
Run Code Online (Sandbox Code Playgroud)

python python-sphinx toctree

6
推荐指数
1
解决办法
1224
查看次数

SQL Server Collat​​ion匹配Java不区分大小写的Unicode比较

我一直在阅读很多关于校对的内容,并尝试了一些不同的东西,但我似乎无法得到我想要的结果.

我正在寻找一个不区分大小写,重音敏感的排序规则,但是在所有"常规"字符之后将所有字符都加上重音符号.例如,我想要一个这样的结果:

  • "aO Ark"
  • "AO史密斯电气产品公司"
  • "AZ Vesalius"
  • "A.ö.BKHSt.Johann/Tirol"

Latin1_General_BIN以我想要的方式处理重音,但它区分大小写.

Latin1_General_CI_AS,SQL_Latin1_General_CI_AS和Latin1_General_CI_AI都返回:

  • "aO Ark"
  • "AO史密斯电气产品公司"
  • "A.ö.BKHSt.Johann/Tirol"
  • "AZ Vesalius"

有这样的校对吗?

java sql sql-server unicode collation

5
推荐指数
1
解决办法
443
查看次数

根据散景中的 x_range 自动设置 vbar line_width

我有一个vbar绑定到ColumnDataSource根据一些小部件选择更新的。如果我从line_width=5我的初始数据开始,它看起来很棒。但是,当我更新图形时,x_range会更新以适应更新的数据并导致条形的相对宽度发生变化。

理想情况下,宽度应始终与显示的条形数量成正比。我试图寻找在对各种属性x_rangexaxis看如果我能得到的范围内,并尝试计算宽度自己,但我没有发现任何帮助。一直在环顾四周和文档,什么也没有。有什么想法吗?

python graph bokeh

3
推荐指数
1
解决办法
1891
查看次数