Mon*_*RPG 8 nlp summarization mlmodel huggingface-transformers huggingface
如果这不是提出这个问题的最佳地点,请引导我找到最准确的地点。
我计划使用 Huggingface 摘要模型之一 ( https://huggingface.co/models?pipeline_tag=summarization ) 来总结我的讲座视频转录。
到目前为止,我已经测试了facebook/bart-large-cnn和sshleifer/distilbart-cnn-12-6,但它们最多只支持 1,024 个令牌作为输入。
所以,这是我的问题:
是否有支持更长输入(例如 10,000 字文章)的摘要模型?
对于给定的输入长度,最佳输出长度是多少?假设对于 1,000 个单词的输入,最佳(最小)输出长度(摘要文本的最小长度)是多少?
哪种模型可能适用于编程相关文章?
是否有支持更长输入(例如 10,000 字文章)的摘要模型?
是的, Beltagy 等人发布的Longformer Encoder-Decoder (LED) [1]模型。能够处理多达 16k 个令牌。HuggingFace上提供各种 LED 型号。还有Phang 等人最近发表的PEGASUS-X [2] 。它还能够处理多达 16k 个令牌。模型也可以在 HuggingFace上找到。
或者,您可以查看:
max_input_length(例如 1024),对每个块进行总结,然后连接在一起。必须注意如何对文档进行分块,以避免在特定主题的中途分块,或者最终的块相对较短,从而可能产生无法使用的摘要。对于给定的输入长度,最佳输出长度是多少?假设对于 1,000 个单词的输入,最佳(最小)输出长度是多少(即摘要文本的最小长度)?
这是一个非常难以回答的问题,因为很难凭经验评估摘要的质量。我建议您自己使用不同的输出长度限制(例如 20、50、100、200)运行一些测试,并找出主观上效果最好的。每个模型和文档类型都会有所不同。有趣的是,我想说至少 50 个字就足够了,100-150 个字可以提供更好的结果。
哪种模型可能适用于编程相关文章?
我可以想象三种可能的情况来构成一篇与编程相关的文章。
对于情况(1),我不知道 HuggingFace 上有任何关注这个问题的实现。然而,它是一个活跃的研究课题(参见[3]、[4]、[5])。
对于情况(2),您可以使用已经使用过的模型,如果可行的话,可以根据您自己的编程相关文章的特定数据集进行微调。
对于情况 (3),只需根据输入是否被分类为正式(代码)语言或非正式(自然)语言来组合 (1) 和 (2) 的实现即可。
[1] Beltagy, I.、Peters, ME 和 Cohan, A., 2020。Longformer:长文档转换器。arXiv 预印本 arXiv:2004.05150。
[2] Phang, J.、Zhao, Y. 和 Liu, PJ, 2022。研究有效扩展 Transformer 以实现长输入汇总。arXiv 预印本 arXiv:2208.04347。
[3] Ahmad, WU、Chakraborty, S.、Ray, B. 和 Chang, KW, 2020。基于 Transformer 的源代码摘要方法。arXiv 预印本 arXiv:2005.00653。
[4] Wei, B., Li, G., Xia, X., Fu, Z. and Jin, Z., 2019. 代码生成作为代码摘要的双重任务。神经信息处理系统的进展,32。
[5]万勇、赵志、杨明、徐光、应华、吴建、余PS,2018年9月。通过深度强化学习改进自动源代码摘要。第 33 届 ACM/IEEE 自动软件工程国际会议论文集(第 397-407 页)。
| 归档时间: |
|
| 查看次数: |
3023 次 |
| 最近记录: |