小编Rap*_*our的帖子

针对已存储文件的数百万个哈希检查数百万个文件

我有一个数百万sha256哈希文件的数据库.我经常收到数以百万计的新文件,我必须检查数据库以避免重复.

检查文件的哈希值与mysql数据库相比需要数年时间.我已经将哈希分成了16个表(0到F).我已经尝试过couchbase,但这需要超过8GB的内存并且导致数百万次哈希导致大量内存使用...

任何人都可以给我一个解决方案来存储大约4,5GB的哈希值(当哈希值被转储到纯文本文件时大小减小)在比MySQL更快的数据库中?

存储哈希没有任何元信息,没有文件名或路径或id或whatelse.

亲切的问候,3vilc00kie

编辑表定义:

-- phpMyAdmin SQL Dump
-- version 3.3.9
-- http://www.phpmyadmin.net
--
-- Host: 127.0.0.1
-- Erstellungszeit: 31. Januar 2014 um 13:55
-- Server Version: 5.5.8
-- PHP-Version: 5.3.5

SET SQL_MODE="NO_AUTO_VALUE_ON_ZERO";


/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES utf8 */;

--
-- Datenbank: `filehashes`
--

-- --------------------------------------------------------

--
-- Tabellenstruktur für Tabelle `0`
--

CREATE TABLE IF NOT EXISTS `0` (
  `sha256` binary(32) NOT NULL
) ENGINE=InnoDB …
Run Code Online (Sandbox Code Playgroud)

mysql database hash memcached bigdata

1
推荐指数
1
解决办法
419
查看次数

标签 统计

bigdata ×1

database ×1

hash ×1

memcached ×1

mysql ×1