小编bea*_*bea的帖子

使用 python 进行 Spark 流：如何添加 UUID 列？

我想在我的数据框中添加一个带有生成 id 的列。我试过了：

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())

Run Code Online (Sandbox Code Playgroud)

但是，当我这样做时，我的输出目录中没有写入任何内容。当我删除这些行时，一切正常，所以一定有一些错误，但我在控制台中没有看到任何内容。

我曾尝试使用 monotonically_increasing_id() 而不是生成 UUID，但在我的测试中，这会产生许多重复项。我需要一个唯一标识符（不必专门是 UUID）。

我怎样才能做到这一点？

python uuid apache-spark pyspark

bea*_*bea

2021 05-04

9
推荐指数

3
解决办法

9290
查看次数

简单的文件文本搜索工具？

我正在寻找一个可用于搜索本地计算机上的文本文件的开源工具.我看过弹性搜索,但看起来太复杂,功能多于我需要的功能.

我只需要在本地机器上搜索文本文件.我正在寻找一些东西,它将输入文件目录和搜索字符串,并输出包含该字符串的文件列表.数据大小可能会跨越数百个文件传播到数百个文件中,因此具有索引功能的内容可能效果最佳.一个简单的客户端HTML UI将是非常棒的.

我不需要数据流,集合,多服务器聚合,Web服务,多文件格式支持,外部数据库等.

有人必须已经这样做了.谁能指出我正确的方向？

编辑添加:我正在寻找一个可以集成到另一个客户端应用程序中的库.lucene/elasticsearch/etc的本地前端,不需要Web服务器或数据库.

search full-text-search search-engine

bea*_*bea

2012 10-20

8
推荐指数

1
解决办法

4425
查看次数

SQL从min开始按顺序查找缺失的数字？

我找到了几个SQL查询的例子,它们会在序列中找到缺失的数字.例如这一个:

Select T1.val+1 
from table T1 
where not exists(select val from table T2 where T2.val = T1.val + 1);

Run Code Online (Sandbox Code Playgroud)

这只会在现有序列中找到空白.我想从最小值开始找到序列中的间隙.

例如,如果我的序列中的值是2,4,那么上面的查询将返回3,5.

我想指定我的序列必须从0开始,所以我希望查询返回0,1,3,5.

如何在查询中添加最小值？

以下问题的几个答案:
- 没有最大值,只有最小值
- DB是oracle

sql oracle

bea*_*bea

2014 08-29

2
推荐指数

1
解决办法

1832
查看次数

标签统计

apache-spark ×1

full-text-search ×1

oracle ×1

pyspark ×1

python ×1

search ×1

search-engine ×1

sql ×1

uuid ×1

使用 python 进行 Spark 流：如何添加 UUID 列？

简单的文件文本搜索工具？

SQL从min开始按顺序查找缺失的数字？

标签 统计

小编bea_bea的帖子

标签统计