如何比较两段文字?

moj*_*ayi 6 java string md5 compare paragraph

我需要删除包含许多段落的文本中的重复段落.

我使用类中的函数java.security.MessageDigest来计算每个段落的MD5哈希值,然后将这些哈希值添加到一个Set.

如果add()成功,则表示最新段落是重复段落.

这种方式有风险吗?

除此之外String.equals(),还有其他办法吗?

Fil*_*lto 0

我认为这是一个好办法。但是,有一些事情需要记住:

  1. 请注意,计算哈希值是一项繁重的操作。如果您必须重复数百万个段落,这可能会使您的程序变慢。
  2. 即使通过这种方式,您最终也可能会发现略有不同的段落(例如,有拼写错误)未被检测到。如果是这种情况,您应该在计算哈希之前对段落进行规范化(将其变为小写,删除多余的空格等)。