我目前正在构建一个系统,它将总结来自维基百科等网页的文章。
我能够从网页中提取文本,并且我知道 Open Text Summarizer API 可以帮助我进行摘要,但问题是我不知道如何正确使用它。
请问任何碰巧知道如何使用这个库的人?你能为我提供一个简单的例子吗?目前我正在用 C# 做我的项目。
我很难区分指示性摘要和信息性摘要。你能给我一个清楚的例子来说明它们之间的区别吗?
提前致谢!
我使用 data.tree 结构来汇总文件文件夹中的各种信息。在每个文件夹中我都有许多文件(值),我需要为每个文件夹做的是总结该文件夹+所有子文件夹包含多少个文件。
\n\n示例数据:
\n\nlibrary(data.tree)\ndata <- data.frame(pathString = c("MainFolder",\n                                  "MainFolder/Folder1",\n                                  "MainFolder/Folder2",\n                                  "MainFolder/Folder3",\n                                  "MainFolder/Folder1/Subfolder1",\n                                  "MainFolder/Folder1/Subfolder2"),\n                   Value = c(1,1,5,2,4,10))\ntree <- as.Node(data, Value)\nprint(tree, "Value")\n               levelName Value\n1 MainFolder             1\n2  \xc2\xa6--Folder1            1\n3  \xc2\xa6   \xc2\xa6--Subfolder1     4\n4  \xc2\xa6   \xc2\xb0--Subfolder2    10\n5  \xc2\xa6--Folder2            5\n6  \xc2\xb0--Folder3            2\n我目前对问题的解决方案非常缓慢:
\n\n# Function to sum up file counts pr folder + subfolders\ntotal_count <- function(node) {\n  results <- sum(as.data.frame(print(node, "Value"))$Value)\n  return(results)\n}\n\n# Summing up file counts pr folder + subfolders\ntree$Do(function(node) node$Value_by_folder <- total_count(node))\n\n\n# Results\nprint(tree, "Value", "Value_by_folder")\n           levelName Value Value_by_folder\n1 MainFolder             1 …我正在 HuggingFace 上实现 BART,请参阅参考:https ://huggingface.co/transformers/model_doc/bart.html
以下是他们文档中用于创建生成摘要的代码:
from transformers import BartModel, BartTokenizer, BartForConditionalGeneration
model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large')
def baseBart(ARTICLE_TO_SUMMARIZE):
  inputs = tokenizer([ARTICLE_TO_SUMMARIZE], max_length=1024, return_tensors='pt')
  # Generate Summary
  summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=25, early_stopping=True)
  return [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids][0]
我需要使我的摘要简洁,所以我设置max_length=25. 但这样做时,我得到的句子不完整,例如这两个例子:
EX1:左肺基底的混浊与之前的检查相比似乎稳定。左半身有抬高
EX 2:有正常的矿化和排列。未发现骨折或骨质病变。脚踝死了
如何确保预测的摘要是连贯的句子、完整的思想并且保持简洁。如果可能的话,我不想对汇总输出执行正则表达式,并在最后一个句点之后截断任何文本,但实际上让 BART 模型在最大长度内生成句子。
我尝试truncation=True在模型中进行设置,但没有成功。
我正在计算dplyr::summarize销售数据的数据框.我做了一个分组(S,D,Y),然后在每个组内,计算中位数和平均值5..43,然后将它们合并回父df.变量X是销售额.X永远不是NA(即df中没有任何明确的NA),但是如果S,D,Y和周数没有数据(如,没有销售),那么就不会有这些值的行在df中(接受它意味着该特定参数集的零销售额).换句话说,在任何结构缺失的行中插入X = 0(但我希望我不需要melt/cast原始的df,以避免膨胀.类似于cast(fill....,add.missing=T)或caret::preProcess()).
关于我的代码习惯的两个问题:
使用汇总是否比使用汇总更好dplyr::filter,因为过滤器会物理地丢弃行,所以我必须将结果分配给df.tmp左 - 将其连接回原始df(如下所示)?此外,在汇总计算的每一行上重复的大子集表达式使得代码更难以阅读.我是否应该担心(或不关心)缓存子集化操作的行或逻辑索引,在我可能计算的一般情况下说n = 20个新的汇总变量?
并非所有S,D,Y组和过滤器的组合(对于那些周)都有行,那么如何在任何缺失的行上进行汇总以替换NA?目前我做如下.
很抱歉,代码和数据集都是专有的,但这里是代码习惯用法,下面是您应首先运行以生成样本数据的代码:
# Compute median, mean of X across wks 5..43, for that set of S,D,Y-values
# Issue a) filter() or repeatedly use subset() within each calculation?
df.tmp <- df %.% group_by(S,D,Y) %.% filter(Week>=5 & Week<=43) %.%
  summarize(ysd_med543_X  = median(X),
            ysd_mean543_X = mean(X)
           ) %.% ungroup()
# Issue b) how to replace NAs in groups where the group_by-and-filter gave …我有两个data.tables.我想计算与另一个表中的表的组合匹配的行数.我检查了data.table文档,但我没有找到答案.我正在使用data.table 1.9.2.
DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
#    a b
# 1: 3 8
# 2: 2 3
DT2
#    w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2
现在我想计算DT2中(3,8)对和(2,3)对的数量.
setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3    ## OK !
nrow(DT2[J(2, 3), nomatch=0])
# [1] 1    ## OK !
DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])] …假设我有一个数据集data:
x1 <- c("a","a","a","a","a","a","b","b","b","b")
x2 <- c("a1","a1","a1","a1","a1","a1","b1","b1","b2","b2")
data <- data.frame(x1,x2)
x1 x2
a  a1
a  a1 
a  a2
a  a1
a  a2
a  a3
b  b1
b  b1
b  b2 
b  b2
我想找到x1对应的唯一值的数量x2
例如a,只有3个唯一值(a1,a2和a3)并且b有2个值(b1和b2)
我使用aggregate(x1~.,data,sum)但它没有用,因为这些是因素,而不是整数.
请帮忙
我计划在自然语言处理(使用NLTK)上完成我的最后一年项目,我感兴趣的领域是来自 Facebook等社交媒体网站的评论摘要.例如,我试图做这样的事情:
随机Facebook评论图片:
现在,所有这些注释将被映射(使用基于模板的注释摘要技术),如下所示:
3人认为这张照片是"美丽的".
输出将包含单词"beautiful",因为它在评论中比"pretty"更常用(以及Beautiful和pretty是同义词这一事实).为了完成这项任务,我将使用跟踪关键字频率和关键字得分的方法(在这种情况下,"美丽"和"漂亮"得分非常接近). 这是最好的方法吗?
到目前为止,通过我的研究,我已经能够提出以下论文,但没有一篇论文涉及这种评论摘要:
该领域的其他哪些论文涉及类似问题?
除此之外,我还希望我的摘要工具能够改进每个摘要任务.如何在这方面应用机器学习?
我有一个很长的文本文件,使用R language我想用至少 10 到 20 行或小句子来总结文本。如何用 总结至少 10 行的文本R language?
需要 GPT-3 的有效提示来完成这个“编程”任务。创建有效的 GPT-3 提示本质上已成为一种新的编程形式(向计算机发出指令来完成任务)。
正在为 GPT-3 提示符的新生、不断发展的“编程”语言建立存储库,例如:
https://github.com/martonlanga/gpt3-prompts
http://gptprompts.wikidot.com/start
https://github.com/wgryc/gpt3-prompts
请参阅下面的工作示例,该示例工作正常,但并没有真正满足需求,并且不够可靠。
这是一个重要的、新兴的、快速发展的领域。
寻求能够实现标题中目标的提示:高度可靠地总结/缩短句子和/或段落,而不制造废话。
请审阅者,这对很多人来说都是一个重要的问题...不要心胸狭隘并认为因为 GPT-3 提示符还不是“传统”计算机语言,所以它们在这里没有一席之地。
感谢您的帮助
GPT-3 提示示例:
请总结一下下面的文章。微软正在洽谈收购 TikTok 字节跳动旗下社交媒体集团的谈判正值特朗普威胁采取行动之际
据知情人士透露,微软已经就收购 TikTok 进行了谈判,其中国所有者字节跳动面临着美国政府越来越大的压力,要求其出售这款视频共享应用程序,否则就有被列入该国黑名单的风险。
...文章的其余部分...“””
问:您能用三句话概括一下上面的文章吗?