小编Tim*_*our的帖子

使用Hadoop进行相似性连接

我是hadoop的新手.我想提出一些我想出来的方法.

问题:
2个数据集:A和B.
两个数据集代表歌曲:一些顶级属性,标题(1 .. ),表演者(1 ..).
我需要使用基于标题和表演者的相等或模糊算法(例如levenshtein,jaccard,jaro-winkler等)来匹配这些数据集.
数据集大小为:A = 20-30M,B~ = 1-6M.

所以这里有我提出的方法:

  1. 将数据集B(最小)加载到HDFS中.对数据集A(最大)使用mapreduce,其中:
    map phase:对于A访问HDFS中的每条记录,并拉出记录B进行匹配;
    reduce phase:写入id对

  2. 将数据集A加载到优化形式的distirubted缓存(即jboss缓存)中以加速搜索.对数据集B使用mapreduce,其中:
    map phase:对于B查询中的每个记录,用于匹配的分布式缓存
    reduce:写入id对

  3. 使用mapreduce连接两个数据集,其中
    map阶段:从集合A和集合B获取记录,匹配
    减少阶段:相同
    (我对第一个模糊不清.第一个:连接将是具有万亿个记录的笛卡尔积;第二个:不确定hadoop如何跨群集平行化)

  4. 使用配置单元(我正在寻找现在试图找出如何插入将进行字符串匹配的自定义函数)

我正在寻找一个指针,这种方法将是最好的候选人,或者也许还有一些我看不到的方法.

hadoop

6
推荐指数
1
解决办法
6808
查看次数

将 Postgres 9.4.5 迁移到 11.1

寻找一种将 Postgres 9.4.5 迁移到最新版本 11.1 并尽可能减少停机时间的方法

我们拥有的是:

  • 数据库大小 - 1.2TB,总行数 > 4B
  • (主要)在 AWS(自我管理)上运行的 Postgres 9.4.5,这是一个主要实例。
  • (二级备用)使用流式复制复制的二级实例
  • 定期磁盘快照和 WAL 归档
  • 每日逻辑备份 ( pg_dump)

到目前为止,我们测试了两个选项:pg_dumpall/pg_restorepg_upgrade,这两个选项都可以正常工作,但需要 48 小时以上才能完成。

根据文档https://www.postgresql.org/docs/current/upgrading.html#UPGRADING-VIA-REPLICATION还有逻辑复制选项。但是,我的理解是 9.4 只有逻辑解码(不是复制)。所以这个选项在我们的例子中不可用,对吗?

是否有其他选项可以尽可能减少停机时间迁移到 v11?

postgresql

5
推荐指数
1
解决办法
3492
查看次数

创建索引组织表的问题

我对索引组织表有一个奇怪的问题.我正在运行Oracle 11g标准.

我有一个表src_table

SQL> desc src_table;
 Name            Null?    Type
 --------------- -------- ----------------------------
 ID     NOT NULL   NUMBER(16)
 HASH       NOT NULL   NUMBER(3)
 ........

SQL> select count(*) from src_table;
  COUNT(*)
----------
  21108244
Run Code Online (Sandbox Code Playgroud)

现在让我们创建另一个表并从src_table复制2列

set timing on
SQL> create table dest_table(id number(16), hash number(20), type number(1));
Table created.
Elapsed: 00:00:00.01

SQL> insert /*+ APPEND */ into dest_table (id,hash,type) select id, hash, 1 from src_table;
21108244 rows created.
Elapsed: 00:00:15.25

SQL> ALTER TABLE dest_table ADD ( CONSTRAINT dest_table_pk PRIMARY KEY (HASH, id, TYPE));
Table altered. …
Run Code Online (Sandbox Code Playgroud)

oracle

3
推荐指数
1
解决办法
1328
查看次数

标签 统计

hadoop ×1

oracle ×1

postgresql ×1