比较文本并获得差异

Pet*_*ter 7 .net vb.net asp.net text-comparison

好吧,我想比较2个字符串(版本1和版本2)并获得我可以自己转换为html的格式的差异,就像你可以查看如何在堆栈溢出时编辑帖子或像svn跟踪之间的差异修订....

它必须是完整的托管代码库.

这个 JavaScript,但我需要在服务器端做它..

Rem*_*emy 8

谷歌有类似的东西,它可以用C#,但没有更深入地看待它.该演示看起来很酷.

http://code.google.com/p/google-diff-match-patch/


ang*_*son 6

我有一个类库,我会在下面发布一个链接,但我也会发布它的工作方式,以便你可以评估它是否适合你的内容.

请注意,对于我在下面说的所有内容,如果您将每个字符视为集合的元素,则可以针对任何类型的内容实现下面描述的算法.无论是字符串的字符,文本行,ORM对象的集合.

整个算法围绕最长公共子串(LCS),是一种递归方法.

首先,算法试图找到两者之间的LCS.这将是两个版本之间保持不变/相同的最长部分.然后算法将这两个部分视为"对齐".

例如,以下是两个示例字符串的对齐方式:

      This long text has some text in the middle that will be found by LCS
This extra long text has some text in the middle that should be found by LCS
          ^-------- longest common substring --------^
Run Code Online (Sandbox Code Playgroud)

然后它递归地将自身应用于对齐部分之前的部分,以及之后的部分.

最终的"结果"看起来像这样(我使用下划线表示其中一个字符串中的"不存在"部分):

This ______long text has some text in the middle that ______will be found by LCS
This extra long text has some text in the middle that should____ be found by LCS
Run Code Online (Sandbox Code Playgroud)

然后,作为递归方法的一部分,每个级别的递归调用将返回一组"操作",这些操作基于是否存在LCS,或者是否在任一部分中缺少部分,将按如下方式吐出:

  • 如果是LCS,那么它就是"复制"操作
  • 如果从第一个丢失,则它是"插入"操作
  • 如果从第二个丢失,则它是"删除"操作

所以上面的文字是:

  1. 复制5个字符(This)
  2. 插入extra_(显然代码块在这里删除空格,下划线是空格)
  3. 复制43个字符(long text has some text in the middle that_)
  4. 插入 should
  5. 删除4个字符(will)
  6. 复制16个字符(_be found by LCS)

该算法的核心非常简单,如果您愿意,在上述文本中,您应该能够自己实现它.

我的类库中有一些额外的功能,特别是处理类似于已更改文本的内容,这样您不仅可以获取删除或插入操作,还可以修改操作,这一点非常重要,如果你正在比较某些东西的列表,比如文本文件中的行.

可以在这里找到类库:CodePlex上的DiffLib,您也可以在Nuget上找到它,以便在Visual Studio 2010中轻松安装.它是用C#编写的.NET 3.5及更高版本,因此它适用于.NET 3.5和4.0 ,因为它是一个二进制版本(所有源代码都在CodePlex上),你也可以在VB.NET中使用它.