我想在我的数据框中添加一个带有生成 id 的列。我试过了:
uuidUdf = udf(lambda x: str(uuid.uuid4()), StringType())
df = df.withColumn("id", uuidUdf())
Run Code Online (Sandbox Code Playgroud)
但是,当我这样做时,我的输出目录中没有写入任何内容。当我删除这些行时,一切正常,所以一定有一些错误,但我在控制台中没有看到任何内容。
我曾尝试使用 monotonically_increasing_id() 而不是生成 UUID,但在我的测试中,这会产生许多重复项。我需要一个唯一标识符(不必专门是 UUID)。
我怎样才能做到这一点?
我正在寻找一个可用于搜索本地计算机上的文本文件的开源工具.我看过弹性搜索,但看起来太复杂,功能多于我需要的功能.
我只需要在本地机器上搜索文本文件.我正在寻找一些东西,它将输入文件目录和搜索字符串,并输出包含该字符串的文件列表.数据大小可能会跨越数百个文件传播到数百个文件中,因此具有索引功能的内容可能效果最佳.一个简单的客户端HTML UI将是非常棒的.
我不需要数据流,集合,多服务器聚合,Web服务,多文件格式支持,外部数据库等.
有人必须已经这样做了.谁能指出我正确的方向?
编辑添加:我正在寻找一个可以集成到另一个客户端应用程序中的库.lucene/elasticsearch/etc的本地前端,不需要Web服务器或数据库.
我找到了几个SQL查询的例子,它们会在序列中找到缺失的数字.例如这一个:
Select T1.val+1
from table T1
where not exists(select val from table T2 where T2.val = T1.val + 1);
Run Code Online (Sandbox Code Playgroud)
这只会在现有序列中找到空白.我想从最小值开始找到序列中的间隙.
例如,如果我的序列中的值是2,4,那么上面的查询将返回3,5.
我想指定我的序列必须从0开始,所以我希望查询返回0,1,3,5.
如何在查询中添加最小值?