标签: summarization

library(data.tree)\ndata <- data.frame(pathString = c("MainFolder",\n                                  "MainFolder/Folder1",\n                                  "MainFolder/Folder2",\n                                  "MainFolder/Folder3",\n                                  "MainFolder/Folder1/Subfolder1",\n                                  "MainFolder/Folder1/Subfolder2"),\n                   Value = c(1,1,5,2,4,10))\ntree <- as.Node(data, Value)\nprint(tree, "Value")\n               levelName Value\n1 MainFolder             1\n2  \xc2\xa6--Folder1            1\n3  \xc2\xa6   \xc2\xa6--Subfolder1     4\n4  \xc2\xa6   \xc2\xb0--Subfolder2    10\n5  \xc2\xa6--Folder2            5\n6  \xc2\xb0--Folder3            2\n

Run Code Online (Sandbox Code Playgroud)\n\n

我目前对问题的解决方案非常缓慢：

\n\n

# Function to sum up file counts pr folder + subfolders\ntotal_count <- function(node) {\n  results <- sum(as.data.frame(print(node, "Value"))$Value)\n  return(results)\n}\n\n# Summing up file counts pr folder + subfolders\ntree$Do(function(node) node$Value_by_folder <- total_count(node))\n\n\n# Results\nprint(tree, "Value", "Value_by_folder")\n           levelName Value Value_by_folder\n1 MainFolder             1 …

Run Code Online (Sandbox Code Playgroud)

directory tree recursion r summarization

Esb*_*rdt

lucky-day

5
推荐指数

1
解决办法

688
查看次数

限制 BART HuggingFace 模型来完成最大长度的句子

我正在 HuggingFace 上实现 BART，请参阅参考：https ://huggingface.co/transformers/model_doc/bart.html

以下是他们文档中用于创建生成摘要的代码：

from transformers import BartModel, BartTokenizer, BartForConditionalGeneration

model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')

def baseBart(ARTICLE_TO_SUMMARIZE):
  inputs = tokenizer([ARTICLE_TO_SUMMARIZE], max_length=1024, return_tensors='pt')
  # Generate Summary
  summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=25, early_stopping=True)
  return [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids][0]

Run Code Online (Sandbox Code Playgroud)

我需要使我的摘要简洁，所以我设置max_length=25. 但这样做时，我得到的句子不完整，例如这两个例子：

EX1：左肺基底的混浊与之前的检查相比似乎稳定。左半身有抬高

EX 2：有正常的矿化和排列。未发现骨折或骨质病变。脚踝死了

如何确保预测的摘要是连贯的句子、完整的思想并且保持简洁。如果可能的话，我不想对汇总输出执行正则表达式，并在最后一个句点之后截断任何文本，但实际上让 BART 模型在最大长度内生成句子。

我尝试truncation=True在模型中进行设置，但没有成功。

summarization huggingface-transformers

vin*_*y38

2021 04-08

5
推荐指数

0
解决办法

1125
查看次数

dplyr idiom for summarize()一个filtered-group-by,并且还替换因缺少行而导致的任何NAs

我正在计算dplyr::summarize销售数据的数据框.我做了一个分组(S,D,Y),然后在每个组内,计算中位数和平均值5..43,然后将它们合并回父df.变量X是销售额.X永远不是NA(即df中没有任何明确的NA),但是如果S,D,Y和周数没有数据(如,没有销售),那么就不会有这些值的行在df中(接受它意味着该特定参数集的零销售额).换句话说,在任何结构缺失的行中插入X = 0(但我希望我不需要melt/cast原始的df,以避免膨胀.类似于cast(fill....,add.missing=T)或caret::preProcess()).

关于我的代码习惯的两个问题:

使用汇总是否比使用汇总更好dplyr::filter,因为过滤器会物理地丢弃行,所以我必须将结果分配给df.tmp左 - 将其连接回原始df(如下所示)？此外,在汇总计算的每一行上重复的大子集表达式使得代码更难以阅读.我是否应该担心(或不关心)缓存子集化操作的行或逻辑索引,在我可能计算的一般情况下说n = 20个新的汇总变量？
并非所有S,D,Y组和过滤器的组合(对于那些周)都有行,那么如何在任何缺失的行上进行汇总以替换NA？目前我做如下.

很抱歉,代码和数据集都是专有的,但这里是代码习惯用法,下面是您应首先运行以生成样本数据的代码:

# Compute median, mean of X across wks 5..43, for that set of S,D,Y-values
# Issue a) filter() or repeatedly use subset() within each calculation?
df.tmp <- df %.% group_by(S,D,Y) %.% filter(Week>=5 & Week<=43) %.%
  summarize(ysd_med543_X  = median(X),
            ysd_mean543_X = mean(X)
           ) %.% ungroup()

# Issue b) how to replace NAs in groups where the group_by-and-filter gave …

Run Code Online (Sandbox Code Playgroud)

idioms r summarization na dplyr

smc*_*mci

2014 05-03

4
推荐指数

1
解决办法

4075
查看次数

如何计算R中data.table中的出现组合

我有两个data.tables.我想计算与另一个表中的表的组合匹配的行数.我检查了data.table文档,但我没有找到答案.我正在使用data.table 1.9.2.

DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
#    a b
# 1: 3 8
# 2: 2 3

DT2
#    w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2

Run Code Online (Sandbox Code Playgroud)

现在我想计算DT2中(3,8)对和(2,3)对的数量.

setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3    ## OK !

nrow(DT2[J(2, 3), nomatch=0])
# [1] 1    ## OK !

DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])] …

Run Code Online (Sandbox Code Playgroud)

r summarization data.table

poi*_*rez

2016 02-05

4
推荐指数

2
解决办法

3144
查看次数

如何汇总R中分类变量的唯一值的计数

假设我有一个数据集data:

x1 <- c("a","a","a","a","a","a","b","b","b","b")
x2 <- c("a1","a1","a1","a1","a1","a1","b1","b1","b2","b2")
data <- data.frame(x1,x2)

x1 x2
a  a1
a  a1 
a  a2
a  a1
a  a2
a  a3
b  b1
b  b1
b  b2 
b  b2

Run Code Online (Sandbox Code Playgroud)

我想找到x1对应的唯一值的数量x2

例如a,只有3个唯一值(a1,a2和a3)并且b有2个值(b1和b2)

我使用aggregate(x1~.,data,sum)但它没有用,因为这些是因素,而不是整数.

请帮忙

r unique summarization distinct-values

Lea*_*r27

2018 04-26

4
推荐指数

1
解决办法

5076
查看次数

关于评论摘要的NLP项目

我计划在自然语言处理(使用NLTK)上完成我的最后一年项目,我感兴趣的领域是来自 Facebook等社交媒体网站的评论摘要.例如,我试图做这样的事情:

随机Facebook评论图片:

哇!美丽.
看起来真的很美.
非常漂亮,漂亮的照片.

现在,所有这些注释将被映射(使用基于模板的注释摘要技术),如下所示:

3人认为这张照片是"美丽的".

输出将包含单词"beautiful",因为它在评论中比"pretty"更常用(以及Beautiful和pretty是同义词这一事实).为了完成这项任务,我将使用跟踪关键字频率和关键字得分的方法(在这种情况下,"美丽"和"漂亮"得分非常接近). 这是最好的方法吗？

到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

该领域的其他哪些论文涉及类似问题？

除此之外,我还希望我的摘要工具能够改进每个摘要任务.如何在这方面应用机器学习？

python nlp machine-learning nltk summarization

Ary*_*pta

2014 10-11

3
推荐指数

1
解决办法

987
查看次数