在java中处理大型String列表

Ars*_*ray 7 java hashset bigdata data-structures

我有一个任务,我需要通过几十亿字符串并检查每个是否是唯一的.所有线路本身都不能容纳在PC的RAM存储器中.此外,行数可能大于Integer.MAX_VALUE.

我假设来处理该数据量的最好办法就是把每个字符串的哈希码成某种哈希表的.

所以,这是我的问题:

  1. 我该怎么用而不是String.hashCode()?(返回值为int,但我可能需要很长时间)
  2. 使用此大小的列表的最快方法/框架是什么?我最需要的是能够快速检查列表是否包含元素

rwy*_*and 4

你想得太多了,这一切都可以通过一个 MySQL 表非常简单地完成,该表将数据保存到磁盘而不是将所有内容保存在内存中。如此多的数据从来就不是由独立应用程序有效处理的。

CREATE TABLE TONS_OF_STRINGS
(
  unique_string varchar(255) NOT NULL,
  UNIQUE (unique_string)
)
Run Code Online (Sandbox Code Playgroud)

只需循环遍历这些值(假设这里有一个逗号分隔的列表)并尝试插入每个标记。每个失败的令牌都是重复的。

public static void main(args) {
  Connection con = DriverManager.getConnection("jdbc:mysql://localhost/database","username","password");
  FileReader file = new FileReader("SomeGiantFile.csv");
  Scanner scan = new Scanner(file);
  scan.useDelimiter(",");
  String token;
  while ( scan.hasNext() ) {
    token = scan.next();
    try {
      PreparedStatement ps = con.prepareStatement("Insert into TONS_OF_STRING (UNIQUE_STRING) values (?)");
      ps.setString(1, token);
      ps.executeUpdate();
    } catch (SQLException e) {
      System.out.println("Found duplicate: " + token );
    }
  }
  con.close();
  System.out.println("Well that was easy, I'm all done!");
  return 0;
}
Run Code Online (Sandbox Code Playgroud)

不过,完成后不要忘记清除表格,那是很多数据。