小编Tim*_*our的帖子

使用Hadoop进行相似性连接

我是hadoop的新手.我想提出一些我想出来的方法.

问题:
2个数据集:A和B.
两个数据集代表歌曲:一些顶级属性,标题(1 .. ),表演者(1 ..).
我需要使用基于标题和表演者的相等或模糊算法(例如levenshtein,jaccard,jaro-winkler等)来匹配这些数据集.
数据集大小为:A = 20-30M,B~ = 1-6M.

所以这里有我提出的方法:

将数据集B(最小)加载到HDFS中.对数据集A(最大)使用mapreduce,其中:
map phase:对于A访问HDFS中的每条记录,并拉出记录B进行匹配;
reduce phase:写入id对
将数据集A加载到优化形式的distirubted缓存(即jboss缓存)中以加速搜索.对数据集B使用mapreduce,其中:
map phase:对于B查询中的每个记录,用于匹配的分布式缓存
reduce:写入id对
使用mapreduce连接两个数据集,其中
map阶段:从集合A和集合B获取记录,匹配
减少阶段:相同
(我对第一个模糊不清.第一个:连接将是具有万亿个记录的笛卡尔积;第二个:不确定hadoop如何跨群集平行化)
使用配置单元(我正在寻找现在试图找出如何插入将进行字符串匹配的自定义函数)

我正在寻找一个指针,这种方法将是最好的候选人,或者也许还有一些我看不到的方法.

hadoop

Tim*_*our

lucky-day

6
推荐指数

1
解决办法

6808
查看次数

将 Postgres 9.4.5 迁移到 11.1

寻找一种将 Postgres 9.4.5 迁移到最新版本 11.1 并尽可能减少停机时间的方法。

我们拥有的是：

数据库大小 - 1.2TB，总行数 > 4B
（主要）在 AWS（自我管理）上运行的 Postgres 9.4.5，这是一个主要实例。
（二级备用）使用流式复制复制的二级实例
定期磁盘快照和 WAL 归档
每日逻辑备份 ( pg_dump)

到目前为止，我们测试了两个选项：pg_dumpall/pg_restore和pg_upgrade，这两个选项都可以正常工作，但需要 48 小时以上才能完成。

根据文档https://www.postgresql.org/docs/current/upgrading.html#UPGRADING-VIA-REPLICATION还有逻辑复制选项。但是，我的理解是 9.4 只有逻辑解码（不是复制）。所以这个选项在我们的例子中不可用，对吗？

是否有其他选项可以尽可能减少停机时间迁移到 v11？

postgresql

Tim*_*our

2021 02-16

5
推荐指数

1
解决办法

3492
查看次数

创建索引组织表的问题

我对索引组织表有一个奇怪的问题.我正在运行Oracle 11g标准.

我有一个表src_table

SQL> desc src_table;
 Name            Null?    Type
 --------------- -------- ----------------------------
 ID     NOT NULL   NUMBER(16)
 HASH       NOT NULL   NUMBER(3)
 ........

SQL> select count(*) from src_table;
  COUNT(*)
----------
  21108244

Run Code Online (Sandbox Code Playgroud)

现在让我们创建另一个表并从src_table复制2列

set timing on
SQL> create table dest_table(id number(16), hash number(20), type number(1));
Table created.
Elapsed: 00:00:00.01

SQL> insert /*+ APPEND */ into dest_table (id,hash,type) select id, hash, 1 from src_table;
21108244 rows created.
Elapsed: 00:00:15.25

SQL> ALTER TABLE dest_table ADD ( CONSTRAINT dest_table_pk PRIMARY KEY (HASH, id, TYPE));
Table altered. …

Run Code Online (Sandbox Code Playgroud)

oracle

Tim*_*our

lucky-day

3
推荐指数

1
解决办法

1328
查看次数