小编ADF*_*ADF的帖子

将 pandas 数据框转换为 datasetDict

我无法在任何地方找到如何将 pandas 数据帧转换为 type datasets.dataset_dict.DatasetDict,以便在带有 Huggingface 模型的 BERT 工作流程中得到最佳使用。以这些简单的数据框为例。

train_df = pd.DataFrame({
     "label" : [1, 2, 3],
     "text" : ["apple", "pear", "strawberry"]
})

test_df = pd.DataFrame({
     "label" : [2, 2, 1],
     "text" : ["banana", "pear", "apple"]
})
Run Code Online (Sandbox Code Playgroud)

将它们转换为上述类型的最有效方法是什么?

pandas huggingface-datasets

13
推荐指数
1
解决办法
7439
查看次数

在 R 中填写 PDF 表单?

我正在寻找一种在 R 中自动填写 PDF 表单的方法。我找不到为此而编写的包。有选择吗?

我能想到的替代解决方案:

  1. 使用 R 将包含文本的 PDF 叠加到空白 PDF 模板上。
  2. 使用 R 生成可由其他软件或不同语言的代码读取的 FDF 文件。

所有这些事情在 Python 中似乎都是可行的。然而,我的组织强烈倾向于 R,并且过去一直依赖软件开发人员编写 C# 来填写表格。我希望使用 R 来跳过这一步。

谢谢!

forms pdf r fdf

7
推荐指数
1
解决办法
3184
查看次数

将数字列从计数转换为比例的整洁方法

我只想将下面数据框中的数字行转换为按行比例。

df <- data.frame(
  "id" = c("A", "B", "C", "D"),
  "x" = c(1, 2, 3, 4),
  "y" = c(2, 4, 6, 8)
)
Run Code Online (Sandbox Code Playgroud)

所以 df$x[1] <- 应该转换为 .3333 并且 df$y[1] 应该是 .6666 等等。我想用整洁的代码动态地做到这一点,而不是按名称引用任何列,并忽略数据框中的任何非数字列。

我目前的尝试,基于阅读了一些类似的帖子,如下

df %>%
  mutate_if(is.numeric, . / rowSums(across(where(is.numeric))))
Run Code Online (Sandbox Code Playgroud)

这将返回以下错误: Error: across() must only be used inside dplyr verbs.

请帮忙!

r dplyr tidyverse mutate

4
推荐指数
1
解决办法
98
查看次数

判断公式是否包含随机效应的最佳方法?

我有一个公式列表,我想使用函数将其放入循环中。其中一些公式是随机效应模型,另一些是简单的线性模型。我希望该函数检测模型是否包含随机效应,如果包含,则用于lmer()拟合模型。否则,应该使用lm(). 有关如何检查此条件的任何建议(除了将公式转换为字符串并检查括号之外)?在这个阶段,他们有相同的班级,所以我不能只检查这一点。我还可以使用错误处理来捕获lmer()从模型返回错误时没有随机效果并重新路由到常规lm(),但这似乎也不必要地混乱。

下面的例子:

fit_models <- function(formula_list) {
  models <- list()
    for(ii in seq_along(formula_list)) {
      if(formula_list[[ii]] is lmer) { # Enter condition here
        print("lmer")
      } else {
        print("lm")
      }
  }
}

f1 <- formula(y ~ x)
f2 <- formula(y ~ 1 + x + (1 + x | z))
formulas <- c(f1, f2)

fit_models(formulas)
Run Code Online (Sandbox Code Playgroud)

r function lme4 lm

3
推荐指数
1
解决办法
145
查看次数

python 拆分所有大写单词的字符串

我有一系列格式如下的文本文件:

text = 'COMPANY NAME:   Ruff name of company TYPE OF EVENT: Party NOTIFIED DATE: 1/27/20   COMPANY NAME: Company2/CPT TYPE OF EVENT: Fire NOTIFIED DATE: 1/31/20'
Run Code Online (Sandbox Code Playgroud)

我最终需要将它们放入 pandas 数据框中,其中COMPANY NAME, TYPE OF EVENT,NOTIFIED DATE是列标题和填充行之间的文本。第一步只是弄清楚如何在“:”前面有一个或多个全大写单词的地方分割文本。因此,一些输出如下:

res = ['COMPANY NAME', 'Ruff name of company', 'TYPE OF EVENT', 'PARTY', etc]
Run Code Online (Sandbox Code Playgroud)

我对正则表达式非常陌生,不知道如何让这个匹配发挥作用。我尝试了以下方法:

re.findall('[A-Z]+[A-Z]+[A-Z]', text)
Run Code Online (Sandbox Code Playgroud)

我承认我还差得很远。我还查看了许多其他类似的问题,但未能使它们适应我的用例。

其他帖子:

在Python中使用正则表达式捕获所有连续的全大写单词?

Python正则表达式捕获多大写单词和相邻单词

在 Regex Python 中查找全部大写的行

任何帮助将不胜感激,谢谢!

python regex text

1
推荐指数
1
解决办法
340
查看次数

标签 统计

r ×3

dplyr ×1

fdf ×1

forms ×1

function ×1

huggingface-datasets ×1

lm ×1

lme4 ×1

mutate ×1

pandas ×1

pdf ×1

python ×1

regex ×1

text ×1

tidyverse ×1