小编ADF*_*ADF的帖子

将 pandas 数据框转换为 datasetDict

我无法在任何地方找到如何将 pandas 数据帧转换为 type datasets.dataset_dict.DatasetDict，以便在带有 Huggingface 模型的 BERT 工作流程中得到最佳使用。以这些简单的数据框为例。

train_df = pd.DataFrame({
     "label" : [1, 2, 3],
     "text" : ["apple", "pear", "strawberry"]
})

test_df = pd.DataFrame({
     "label" : [2, 2, 1],
     "text" : ["banana", "pear", "apple"]
})

Run Code Online (Sandbox Code Playgroud)

将它们转换为上述类型的最有效方法是什么？

pandas huggingface-datasets

ADF*_*ADF

lucky-day

13
推荐指数

1
解决办法

7439
查看次数

在 R 中填写 PDF 表单？

我正在寻找一种在 R 中自动填写 PDF 表单的方法。我找不到为此而编写的包。有选择吗？

我能想到的替代解决方案：

使用 R 将包含文本的 PDF 叠加到空白 PDF 模板上。
使用 R 生成可由其他软件或不同语言的代码读取的 FDF 文件。

所有这些事情在 Python 中似乎都是可行的。然而，我的组织强烈倾向于 R，并且过去一直依赖软件开发人员编写 C# 来填写表格。我希望使用 R 来跳过这一步。

谢谢！

forms pdf r fdf

ADF*_*ADF

lucky-day

7
推荐指数

1
解决办法

3184
查看次数

将数字列从计数转换为比例的整洁方法

我只想将下面数据框中的数字行转换为按行比例。

df <- data.frame(
  "id" = c("A", "B", "C", "D"),
  "x" = c(1, 2, 3, 4),
  "y" = c(2, 4, 6, 8)
)

Run Code Online (Sandbox Code Playgroud)

所以 df$x[1] <- 应该转换为 .3333 并且 df$y[1] 应该是 .6666 等等。我想用整洁的代码动态地做到这一点，而不是按名称引用任何列，并忽略数据框中的任何非数字列。

我目前的尝试，基于阅读了一些类似的帖子，如下

df %>%
  mutate_if(is.numeric, . / rowSums(across(where(is.numeric))))

Run Code Online (Sandbox Code Playgroud)

这将返回以下错误： Error: across() must only be used inside dplyr verbs.

请帮忙！

r dplyr tidyverse mutate

ADF*_*ADF

lucky-day

4
推荐指数

1
解决办法

98
查看次数

我有一个公式列表，我想使用函数将其放入循环中。其中一些公式是随机效应模型，另一些是简单的线性模型。我希望该函数检测模型是否包含随机效应，如果包含，则用于lmer()拟合模型。否则，应该使用lm(). 有关如何检查此条件的任何建议（除了将公式转换为字符串并检查括号之外）？在这个阶段，他们有相同的班级，所以我不能只检查这一点。我还可以使用错误处理来捕获lmer()从模型返回错误时没有随机效果并重新路由到常规lm()，但这似乎也不必要地混乱。

下面的例子：

fit_models <- function(formula_list) {
  models <- list()
    for(ii in seq_along(formula_list)) {
      if(formula_list[[ii]] is lmer) { # Enter condition here
        print("lmer")
      } else {
        print("lm")
      }
  }
}

f1 <- formula(y ~ x)
f2 <- formula(y ~ 1 + x + (1 + x | z))
formulas <- c(f1, f2)

fit_models(formulas)

Run Code Online (Sandbox Code Playgroud)

r function lme4 lm

ADF*_*ADF

lucky-day

3
推荐指数

1
解决办法

145
查看次数

python 拆分所有大写单词的字符串

我有一系列格式如下的文本文件：

text = 'COMPANY NAME:   Ruff name of company TYPE OF EVENT: Party NOTIFIED DATE: 1/27/20   COMPANY NAME: Company2/CPT TYPE OF EVENT: Fire NOTIFIED DATE: 1/31/20'

Run Code Online (Sandbox Code Playgroud)

我最终需要将它们放入 pandas 数据框中，其中COMPANY NAME, TYPE OF EVENT,NOTIFIED DATE是列标题和填充行之间的文本。第一步只是弄清楚如何在“：”前面有一个或多个全大写单词的地方分割文本。因此，一些输出如下：

res = ['COMPANY NAME', 'Ruff name of company', 'TYPE OF EVENT', 'PARTY', etc]

Run Code Online (Sandbox Code Playgroud)

我对正则表达式非常陌生，不知道如何让这个匹配发挥作用。我尝试了以下方法：

re.findall('[A-Z]+[A-Z]+[A-Z]', text)

Run Code Online (Sandbox Code Playgroud)

我承认我还差得很远。我还查看了许多其他类似的问题，但未能使它们适应我的用例。

其他帖子：

在Python中使用正则表达式捕获所有连续的全大写单词？

Python正则表达式捕获多大写单词和相邻单词

在 Regex Python 中查找全部大写的行

任何帮助将不胜感激，谢谢！

python regex text

ADF*_*ADF

lucky-day

1
推荐指数

1
解决办法

340
查看次数

标签统计

r ×3

dplyr ×1

fdf ×1

forms ×1

function ×1

huggingface-datasets ×1

lm ×1

lme4 ×1

mutate ×1

pandas ×1

pdf ×1

python ×1

regex ×1

text ×1

tidyverse ×1

小编ADF_ADF的帖子

将 pandas 数据框转换为 datasetDict

在 R 中填写 PDF 表单？

将数字列从计数转换为比例的整洁方法

判断公式是否包含随机效应的最佳方法？

python 拆分所有大写单词的字符串

标签统计

将 pandas 数据框转换为 datasetDict

在 R 中填写 PDF 表单？

将数字列从计数转换为比例的整洁方法

判断公式是否包含随机效应的最佳方法？

python 拆分所有大写单词的字符串

标签 统计

小编ADF_ADF的帖子

标签统计