小编bea*_*bea的帖子

使用 python 进行 Spark 流:如何添加 UUID 列?

我想在我的数据框中添加一个带有生成 id 的列。我试过了:

uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
Run Code Online (Sandbox Code Playgroud)

但是,当我这样做时,我的输出目录中没有写入任何内容。当我删除这些行时,一切正常,所以一定有一些错误,但我在控制台中没有看到任何内容。

我曾尝试使用 monotonically_increasing_id() 而不是生成 UUID,但在我的测试中,这会产生许多重复项。我需要一个唯一标识符(不必专门是 UUID)。

我怎样才能做到这一点?

python uuid apache-spark pyspark

9
推荐指数
3
解决办法
9290
查看次数

简单的文件文本搜索工具?

我正在寻找一个可用于搜索本地计算机上的文本文件的开源工具.我看过弹性搜索,但看起来太复杂,功能多于我需要的功能.

我只需要在本地机器上搜索文本文件.我正在寻找一些东西,它将输入文件目录和搜索字符串,并输出包含该字符串的文件列表.数据大小可能会跨越数百个文件传播到数百个文件中,因此具有索引功能的内容可能效果最佳.一个简单的客户端HTML UI将是非常棒的.

我不需要数据流,集合,多服务器聚合,Web服务,多文件格式支持,外部数据库等.

有人必须已经这样做了.谁能指出我正确的方向?

编辑添加:我正在寻找一个可以集成到另一个客户端应用程序中的库.lucene/elasticsearch/etc的本地前端,不需要Web服务器或数据库.

search full-text-search search-engine

8
推荐指数
1
解决办法
4425
查看次数

SQL从min开始按顺序查找缺失的数字?

我找到了几个SQL查询的例子,它们会在序列中找到缺失的数字.例如这一个:

Select T1.val+1 
from table T1 
where not exists(select val from table T2 where T2.val = T1.val + 1);
Run Code Online (Sandbox Code Playgroud)

这只会在现有序列中找到空白.我想从最小值开始找到序列中的间隙.

例如,如果我的序列中的值是2,4,那么上面的查询将返回3,5.

我想指定我的序列必须从0开始,所以我希望查询返回0,1,3,5.

如何在查询中添加最小值?

  • 以下问题的几个答案:
    • 没有最大值,只有最小值
    • DB是oracle

sql oracle

2
推荐指数
1
解决办法
1832
查看次数