使用 stringi 在 R 中生成唯一的随机字符串

Question

使用 stringi 在 R 中生成唯一的随机字符串

我有数据，其中每一行都是一个人。我想制作一个随机生成的唯一ID，这样我就可以在分析中识别它们。

这是一个示例数据框

df <- data.frame(
  gender = rep(c("M", "F", "M", "M", "F"), 1000),
  qtr = sample(c(1:99), 50000, replace = T),
  result = sample(c(100:1000), 50000, replace = T)
)

Run Code Online (Sandbox Code Playgroud)

为了生成唯一的 ID，我使用 stringi

library(stringi)
library(magrittr)
library(tidyr)

df <- df %>%
  mutate(UniqueID = do.call(paste0, Map(stri_rand_strings, n=50000, length=c(2, 6),
                                        pattern = c('[A-Z]', '[0-9]'))))

Run Code Online (Sandbox Code Playgroud)

但是，当我测试新变量 UniqueID 是否唯一时，通过运行此代码，我发现存在一些重复项。

length(unique(unlist(df[c("UniqueID")])))

Run Code Online (Sandbox Code Playgroud)

有没有办法生成一个真正唯一、没有重复的唯一ID？

我看过这些问题，但它没有回答如何使生成的随机数唯一。在R中的数据帧列中生成唯一的随机数创建一个数据帧，每列中包含随机数

谢谢

Answer 1

Jon*_*ing 9

您可以使用该ids包自动创建唯一的 ID。例如，要创建 1000 万个用户 ID，您可以使用：

randos <- ids::random_id(1E6, 4)
# The 2nd term here controls how many bytes are assigned to each ID.
# The default, 16 bytes, makes much longer IDs and crashes my computer

head(randos)
#[1] "31ca372d" "d462e55f" "2374cc78" "15511574" "ecbf2d65" "236cb2d3"

Run Code Online (Sandbox Code Playgroud)

它还有其他很好的功能，比如adjective_animal创建更容易被人类区分和记住的 ID 的功能。

creatures <- ids::adjective_animal(1E6, n_adjectives = 1)
head(creatures)
#[1] "yestern_lizard"          "insensible_purplemarten"
#[3] "cubical_anhinga"         "theophilic_beaver"      
#[5] "subzero_greyhounddog"    "hurt_weasel"

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年前
查看次数：	5021 次
最近记录：	6 年前