等效于使用自定义比较器进行流式处理

Mar*_*tin 5 java collections java-stream

如果我有以下列表:

List<String> list = Arrays.asList("hello", "world", "hello");
Run Code Online (Sandbox Code Playgroud)

我应用以下(Java8):

list.stream().distinct().collect(Collectors.toString());
Run Code Online (Sandbox Code Playgroud)

然后我会得到一个包含“hello”和“world”的列表。

但是,就我而言,我有一个类型列表(来自外部 api),我想在其中“绕过”equals 方法,最好使用比较器,因为它没有涵盖我需要的内容。

假设这个类看起来像这样:

public class Point {
    float x;
    float y;
    //getters and setters omitted
}
Run Code Online (Sandbox Code Playgroud)

在这种情况下,我希望将涵盖特定标准的两点定义为相等,例如 (30, 20) 和 (30.0001, 19.999)。

自定义比较器可以做到这一点,但我发现没有 API 可以执行 Java8 Stream 中的 distinct() 功能,而是使用比较器(或类似模式)。

有什么想法吗?我知道我可以编写这样的函数,但我更喜欢使用现有 apis 的优雅方式......我对外部库没有限制(番石榴、apache-commons 等,如果他们有一种舒适的方式,欢迎使用)我需要的)。

Cra*_*lin 4

HashingStrategy是您正在寻找的概念。它是一个策略接口,允许您定义 equals 和 hashcode 的自定义实现。

public interface HashingStrategy<E>
{
    int computeHashCode(E object);
    boolean equals(E object1, E object2);
}
Run Code Online (Sandbox Code Playgroud)

Streams 不支持哈希策略,但Eclipse Collections支持。它具有支持散列策略的集合和映射以及distinct()采用散列策略的方法的重载。

这对于字符串来说效果很好。例如,以下是我们如何获取所有不同的字符串(忽略大小写)。

MutableList<String> strings = Lists.mutable.with("Hello", "world", "HELLO", "World");
assertThat(
    strings.distinct(HashingStrategies.fromFunction(String::toLowerCase)),
    is(equalTo(Lists.immutable.with("Hello", "world"))));
Run Code Online (Sandbox Code Playgroud)

或者您可以手动编写哈希策略以避免产生垃圾。

HashingStrategy<String> caseInsensitive = new HashingStrategy<String>()
{
    @Override
    public int computeHashCode(String string)
    {
        int hashCode = 0;
        for (int i = 0; i < string.length(); i++)
        {
            hashCode = 31 * hashCode + Character.toLowerCase(string.charAt(i));
        }
        return hashCode;
    }

    @Override
    public boolean equals(String string1, String string2)
    {
        return string1.equalsIgnoreCase(string2);
    }
};

assertThat(
    strings.distinct(caseInsensitive),
    is(equalTo(Lists.immutable.with("Hello", "world"))));
Run Code Online (Sandbox Code Playgroud)

这也适用于点,但前提是您可以将非重叠区域内的所有点分组为具有相同的哈希码。如果您使用的比较器定义为在两个点足够接近时返回 0,那么您可能会遇到传递性问题。例如,点 A、B 和 C 可以落在一条直线上,其中 A 和 C 都靠近 B 但彼此远离。不过,如果这对您来说是一个有用的概念,我们欢迎ListIterable.distinct(Comparator)向 API 添加拉取请求。

注意:我是 Eclipse Collections 的提交者。

  • 我会尝试一下...我确实可以为所有点提供相同的哈希代码,因为我现在能够识别它们。我通过嵌套 if 运行整个集合并应用我的自定义比较器并删除检测到相同的所有元素来实现这一点...计算哈希代码应该是可能的,我认为这只是四舍五入的问题... (2认同)