Nuw*_*wan 6 java indexing swing highlighting jtextarea
我们正在开发一个剽窃检测框架。在那里我必须突出显示文档中可能的抄袭短语。文档首先通过停用词去除、词干提取和数字去除进行预处理。因此,使用预处理的令牌 As 和示例,突出显示变得困难:
原文:“极限编程是敏捷软件开发的一种方法,它强调在称为时间盒的短开发周期中频繁发布。这通过拥有多个短开发周期而不是一个长开发周期来降低变更成本.极限编程包括成对编程(用于代码审查、单元测试)。此外,它还避免实现当前时间框中未包含的功能,因此可以最大限度地减少进度蠕变。”
短语要强调: 极限编程包括成对编程
预处理令牌:极值程序成对程序
无论如何我可以突出显示原始文档中的预处理令牌????
谢谢
从技术角度来看:您可以选择或开发一种标记语言,并向原始文档添加注释或标签。或者您想创建第二个文件来记录所有潜在的抄袭行为。
使用标记,您的文本可能如下所示:
[...] rather than one long one. <plag ref="1234">Extreme programming
includes pair-wise programming</plag> (for code review, unit testing). [...]
Run Code Online (Sandbox Code Playgroud)
(参考描述原始内容的一些元数据记录)
| 归档时间: |
|
| 查看次数: |
15059 次 |
| 最近记录: |