关于"AUTOMATIC TEXT SUMMARIZER(基于语言)"

Shi*_*wal 2 text nlp linguistics summarization

作为我的最后一年项目,我正在使用"AUTOMATIC TEXT SUMMARIZER(语言学方法)".我收集了足够多的研究论文并完成了它们.我仍然不太清楚'如何去做'的事情.基本上我发现"AUTOMATIC TEXT SUMMARIZER(基于统计)"并发现与我的项目相比它更容易.我的项目指南告诉我不要选择这个(基于统计)并选择基于语言的.

任何曾经研究过甚至听过这类项目的人都会知道,总结任何文件只不过是对每个句子进行评分(通过一些涉及某些特定算法的方法),然后选择得分高于阈值分数的句子.现在,该项目最困难的部分是选择适当的评分算法并在以后实施.

我有适度的编程技巧,并希望在JAVA中编码(因为我会得到很多API,导致较少的开销).现在我想知道,对于我的项目,我应该采用什么方法和算法.还有如何实现它们.

cly*_*yfe 5

使用词汇链进行文本摘要(Microsoft Research)

分析不同的算法:DasMartins.2007

文档中最重要的部分:

•Nenkova(2005)分析认为,没有任何系统可以超越具有统计显着性的基线
•引人注目的结果!

请注意,liguistic方法有两种不同的细微差别:

  • 语言评级系统(这里都清楚)
  • 语言生成(重写句子以构建摘要)