哪些 HuggingFace 摘要模型支持超过 1024 个令牌？哪种模型更适合编程相关文章？

Question

哪些 HuggingFace 摘要模型支持超过 1024 个令牌？哪种模型更适合编程相关文章？

Mon*_*RPG 8 nlp summarization mlmodel huggingface-transformers huggingface

如果这不是提出这个问题的最佳地点，请引导我找到最准确的地点。

我计划使用 Huggingface 摘要模型之一 ( https://huggingface.co/models?pipeline_tag=summarization ) 来总结我的讲座视频转录。

到目前为止，我已经测试了facebook/bart-large-cnn和sshleifer/distilbart-cnn-12-6，但它们最多只支持 1,024 个令牌作为输入。

所以，这是我的问题：

是否有支持更长输入（例如 10,000 字文章）的摘要模型？
对于给定的输入长度，最佳输出长度是多少？假设对于 1,000 个单词的输入，最佳（最小）输出长度（摘要文本的最小长度）是多少？
哪种模型可能适用于编程相关文章？

Answer 1

Kyl*_*erg 9

问题1

是否有支持更长输入（例如 10,000 字文章）的摘要模型？

是的， Beltagy 等人发布的Longformer Encoder-Decoder (LED) [1]模型。能够处理多达 16k 个令牌。HuggingFace上提供各种 LED 型号。还有Phang 等人最近发表的PEGASUS-X [2] 。它还能够处理多达 16k 个令牌。模型也可以在 HuggingFace上找到。

或者，您可以查看：

提取后进行抽象总结，或者
将大文档拆分为多个块max_input_length（例如 1024），对每个块进行总结，然后连接在一起。必须注意如何对文档进行分块，以避免在特定主题的中途分块，或者最终的块相对较短，从而可能产生无法使用的摘要。

问题2

对于给定的输入长度，最佳输出长度是多少？假设对于 1,000 个单词的输入，最佳（最小）输出长度是多少（即摘要文本的最小长度）？

这是一个非常难以回答的问题，因为很难凭经验评估摘要的质量。我建议您自己使用不同的输出长度限制（例如 20、50、100、200）运行一些测试，并找出主观上效果最好的。每个模型和文档类型都会有所不同。有趣的是，我想说至少 50 个字就足够了，100-150 个字可以提供更好的结果。

问题3

哪种模型可能适用于编程相关文章？

我可以想象三种可能的情况来构成一篇与编程相关的文章。

源代码摘要（涉及生成代码的自然（非正式）语言摘要（正式语言））。
传统的抽象摘要（即自然语言的自然语言摘要，但对于谈论编程但没有代码的文章）。
1 和 2 的组合。

对于情况（1），我不知道 HuggingFace 上有任何关注这个问题的实现。然而，它是一个活跃的研究课题（参见[3]、[4]、[5]）。

对于情况（2），您可以使用已经使用过的模型，如果可行的话，可以根据您自己的编程相关文章的特定数据集进行微调。

对于情况 (3)，只需根据输入是否被分类为正式（代码）语言或非正式（自然）语言来组合 (1) 和 (2) 的实现即可。

参考

[1] Beltagy, I.、Peters, ME 和 Cohan, A., 2020。Longformer：长文档转换器。arXiv 预印本 arXiv：2004.05150。

[2] Phang, J.、Zhao, Y. 和 Liu, PJ, 2022。研究有效扩展 Transformer 以实现长输入汇总。arXiv 预印本 arXiv：2208.04347。

[3] Ahmad, WU、Chakraborty, S.、Ray, B. 和 Chang, KW, 2020。基于 Transformer 的源代码摘要方法。arXiv 预印本 arXiv：2005.00653。

[4] Wei, B., Li, G., Xia, X., Fu, Z. and Jin, Z., 2019. 代码生成作为代码摘要的双重任务。神经信息处理系统的进展，32。

[5]万勇、赵志、杨明、徐光、应华、吴建、余PS，2018年9月。通过深度强化学习改进自动源代码摘要。第 33 届 ACM/IEEE 自动软件工程国际会议论文集（第 397-407 页）。

归档时间：	3 年，4 月前
查看次数：	3023 次
最近记录：	3 年，4 月前