标签: summarization

如何使用 Open Text Summarizer API?

我目前正在构建一个系统,它将总结来自维基百科等网页的文章。

我能够从网页中提取文本,并且我知道 Open Text Summarizer API 可以帮助我进行摘要,但问题是我不知道如何正确使用它。

请问任何碰巧知道如何使用这个库的人?你能为我提供一个简单的例子吗?目前我正在用 C# 做我的项目。

c# summarization libots

5
推荐指数
1
解决办法
3901
查看次数

指示性摘要和信息性摘要有什么区别?

我很难区分指示性摘要和信息性摘要。你能给我一个清楚的例子来说明它们之间的区别吗?

提前致谢!

text-processing nlp text-mining summarization

5
推荐指数
1
解决办法
2962
查看次数

R:如何汇总 Data.Tree 中叶子和节点的数据?

我使用 data.tree 结构来汇总文件文件夹中的各种信息。在每个文件夹中我都有许多文件(值),我需要为每个文件夹做的是总结该文件夹+所有子文件夹包含多少个文件。

\n\n

示例数据:

\n\n
library(data.tree)\ndata <- data.frame(pathString = c("MainFolder",\n                                  "MainFolder/Folder1",\n                                  "MainFolder/Folder2",\n                                  "MainFolder/Folder3",\n                                  "MainFolder/Folder1/Subfolder1",\n                                  "MainFolder/Folder1/Subfolder2"),\n                   Value = c(1,1,5,2,4,10))\ntree <- as.Node(data, Value)\nprint(tree, "Value")\n               levelName Value\n1 MainFolder             1\n2  \xc2\xa6--Folder1            1\n3  \xc2\xa6   \xc2\xa6--Subfolder1     4\n4  \xc2\xa6   \xc2\xb0--Subfolder2    10\n5  \xc2\xa6--Folder2            5\n6  \xc2\xb0--Folder3            2\n
Run Code Online (Sandbox Code Playgroud)\n\n

我目前对问题的解决方案非常缓慢:

\n\n
# Function to sum up file counts pr folder + subfolders\ntotal_count <- function(node) {\n  results <- sum(as.data.frame(print(node, "Value"))$Value)\n  return(results)\n}\n\n# Summing up file counts pr folder + subfolders\ntree$Do(function(node) node$Value_by_folder <- total_count(node))\n\n\n# Results\nprint(tree, "Value", "Value_by_folder")\n           levelName Value Value_by_folder\n1 MainFolder             1 …
Run Code Online (Sandbox Code Playgroud)

directory tree recursion r summarization

5
推荐指数
1
解决办法
688
查看次数

限制 BART HuggingFace 模型来完成最大长度的句子

我正在 HuggingFace 上实现 BART,请参阅参考:https ://huggingface.co/transformers/model_doc/bart.html

以下是他们文档中用于创建生成摘要的代码:

from transformers import BartModel, BartTokenizer, BartForConditionalGeneration

model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')

def baseBart(ARTICLE_TO_SUMMARIZE):
  inputs = tokenizer([ARTICLE_TO_SUMMARIZE], max_length=1024, return_tensors='pt')
  # Generate Summary
  summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=25, early_stopping=True)
  return [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids][0]
Run Code Online (Sandbox Code Playgroud)

我需要使我的摘要简洁,所以我设置max_length=25. 但这样做时,我得到的句子不完整,例如这两个例子:

EX1:左肺基底的混浊与之前的检查相比似乎稳定。左半身有抬高

EX 2:有正常的矿化和排列。未发现骨折或骨质病变。脚踝死了

如何确保预测的摘要是连贯的句子、完整的思想并且保持简洁。如果可能的话,我不想对汇总输出执行正则表达式,并在最后一个句点之后截断任何文本,但实际上让 BART 模型在最大长度内生成句子。

我尝试truncation=True在模型中进行设置,但没有成功。

summarization huggingface-transformers

5
推荐指数
0
解决办法
1125
查看次数

dplyr idiom for summarize()一个filtered-group-by,并且还替换因缺少行而导致的任何NAs

我正在计算dplyr::summarize销售数据的数据框.我做了一个分组(S,D,Y),然后在每个组内,计算中位数和平均值5..43,然后将它们合并回父df.变量X是销售额.X永远不是NA(即df中没有任何明确的NA),但是如果S,D,Y和周数没有数据(如,没有销售),那么就不会有这些值的行在df中(接受它意味着该特定参数集的零销售额).换句话说,在任何结构缺失的行中插入X = 0(但我希望我不需要melt/cast原始的df,以避免膨胀.类似于cast(fill....,add.missing=T)caret::preProcess()).

关于我的代码习惯的两个问题:

  1. 使用汇总是否比使用汇总更好dplyr::filter,因为过滤器会物理地丢弃行,所以我必须将结果分配给df.tmp左 - 将其连接回原始df(如下所示)?此外,在汇总计算的每一行上重复的大子集表达式使得代码更难以阅读.我是否应该担心(或不关心)缓存子集化操作的行或逻辑索引,在我可能计算的一般情况下说n = 20个新的汇总变量?

  2. 并非所有S,D,Y组和过滤器的组合(对于那些周)都有行,那么如何在任何缺失的行上进行汇总以替换NA?目前我做如下.

很抱歉,代码和数据集都是专有的,但这里是代码习惯用法,下面是您应首先运行以生成样本数据的代码:

# Compute median, mean of X across wks 5..43, for that set of S,D,Y-values
# Issue a) filter() or repeatedly use subset() within each calculation?
df.tmp <- df %.% group_by(S,D,Y) %.% filter(Week>=5 & Week<=43) %.%
  summarize(ysd_med543_X  = median(X),
            ysd_mean543_X = mean(X)
           ) %.% ungroup()

# Issue b) how to replace NAs in groups where the group_by-and-filter gave …
Run Code Online (Sandbox Code Playgroud)

idioms r summarization na dplyr

4
推荐指数
1
解决办法
4075
查看次数

如何计算R中data.table中的出现组合

我有两个data.tables.我想计算与另一个表中的表的组合匹配的行数.我检查了data.table文档,但我没有找到答案.我正在使用data.table 1.9.2.

DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
#    a b
# 1: 3 8
# 2: 2 3

DT2
#    w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2
Run Code Online (Sandbox Code Playgroud)

现在我想计算DT2中(3,8)对和(2,3)对的数量.

setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3    ## OK !

nrow(DT2[J(2, 3), nomatch=0])
# [1] 1    ## OK !

DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])] …
Run Code Online (Sandbox Code Playgroud)

r summarization data.table

4
推荐指数
2
解决办法
3144
查看次数

如何汇总R中分类变量的唯一值的计数

假设我有一个数据集data:

x1 <- c("a","a","a","a","a","a","b","b","b","b")
x2 <- c("a1","a1","a1","a1","a1","a1","b1","b1","b2","b2")
data <- data.frame(x1,x2)

x1 x2
a  a1
a  a1 
a  a2
a  a1
a  a2
a  a3
b  b1
b  b1
b  b2 
b  b2
Run Code Online (Sandbox Code Playgroud)

我想找到x1对应的唯一值的数量x2

例如a,只有3个唯一值(a1,a2a3)并且b有2个值(b1b2)

我使用aggregate(x1~.,data,sum)但它没有用,因为这些是因素,而不是整数.

请帮忙

r unique summarization distinct-values

4
推荐指数
1
解决办法
5076
查看次数

关于评论摘要的NLP项目

我计划在自然语言处理(使用NLTK)上完成我的最后一年项目,我感兴趣的领域是来自 Facebook等社交媒体网站的评论摘要.例如,我试图做这样的事情:

随机Facebook评论图片:

  1. 哇!美丽.
  2. 看起来真的很美.
  3. 非常漂亮,漂亮的照片.

现在,所有这些注释将被映射(使用基于模板的注释摘要技术),如下所示:

3人认为这张照片是"美丽的".

输出将包含单词"beautiful",因为它在评论中比"pretty"更常用(以及Beautiful和pretty是同义词这一事实).为了完成这项任务,我将使用跟踪关键字频率关键字得分的方法(在这种情况下,"美丽""漂亮"得分非常接近). 这是最好的方法吗?

到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:

该领域的其他哪些论文涉及类似问题?

除此之外,我还希望我的摘要工具能够改进每个摘要任务.如何在这方面应用机器学习

python nlp machine-learning nltk summarization

3
推荐指数
1
解决办法
987
查看次数

R语言文本摘要

我有一个很长的文本文件,使用R language我想用至少 10 到 20 行或小句子来总结文本。如何用 总结至少 10 行的文本R language

text r text-mining summarization

3
推荐指数
1
解决办法
9461
查看次数

GPT-3 提示句子级和段落级文本摘要/文本缩短/文本重写

需要 GPT-3 的有效提示来完成这个“编程”任务。创建有效的 GPT-3 提示本质上已成为一种新的编程形式(向计算机发出指令来完成任务)。

正在为 GPT-3 提示符的新生、不断发展的“编程”语言建立存储库,例如:

https://github.com/martonlanga/gpt3-prompts

http://gptprompts.wikidot.com/start

https://github.com/wgryc/gpt3-prompts

请参阅下面的工作示例,该示例工作正常,但并没有真正满足需求,并且不够可靠。

这是一个重要的、新兴的、快速发展的领域。

寻求能够实现标题中目标的提示:高度可靠地总结/缩短句子和/或段落,而不制造废话。

请审阅者,这对很多人来说都是一个重要的问题...不要心胸狭隘并认为因为 GPT-3 提示符还不是“传统”计算机语言,所以它们在这里没有一席之地。

感谢您的帮助

GPT-3 提示示例:

请总结一下下面的文章。微软正在洽谈收购 TikTok 字节跳动旗下社交媒体集团的谈判正值特朗普威胁采取行动之际

据知情人士透露,微软已经就收购 TikTok 进行了谈判,其中国所有者字节跳动面临着美国政府越来越大的压力,要求其出售这款视频共享应用程序,否则就有被列入该国黑名单的风险。

...文章的其余部分...“””

问:您能用三句话概括一下上面的文章吗?

text artificial-intelligence summarization gpt-3

3
推荐指数
1
解决办法
5814
查看次数