标签: distributed

我在postgresql中有一个数据库,用于作为服务的软件,有数百个客户,目前每个客户都有一个postgresql模式,但我喜欢最好的解决方案,因为客户迅速增加.我读到了cassandra,但我不想失去主要,外键和支票的完整性.另请阅读分布式系统中的postgresql,但我不知道目前实现此目的的最佳方法是什么

postgresql distributed cassandra

ric*_*res

lucky-day

10
推荐指数

2
解决办法

9181
查看次数

加入Mapreduce/Hadoop中的两个数据集

有谁知道如何在Hadoop中的两个数据集之间实现Natural-Join操作？

更具体地说,这就是我需要做的事情:

我有两组数据:

存储为(tile_number,point_id:point_info)的点信息,这是1:n键值对.这意味着对于每个tile_number,可能有几个point_id:point_info
存储为(tile_number,line_id:line_info)的行信息,这也是1:m键值对,并且对于每个tile_number,可能存在多个line_id:line_info

如您所见,tile_numbers在两个数据集之间是相同的.现在我真正需要的是根据每个tile_number连接这两个数据集.换句话说,对于每个tile_number,我们有n个point_id:point_info和m line_id:line_info.我想要做的是将所有对point_id:point_info连接到每个tile_number的所有行line_id:line_info

为了澄清,这是一个例子:

对于点对:

(tile0, point0)
(tile0, point1)
(tile1, point1)
(tile1, point2)

Run Code Online (Sandbox Code Playgroud)

对于线对:

(tile0, line0)
(tile0, line1)
(tile1, line2)
(tile1, line3)

Run Code Online (Sandbox Code Playgroud)

我想要的是如下:

对于瓦片0:

 (tile0, point0:line0)
 (tile0, point0:line1)
 (tile0, point1:line0)
 (tile0, point1:line1)

Run Code Online (Sandbox Code Playgroud)

对于瓷砖1:

 (tile1, point1:line2)
 (tile1, point1:line3)
 (tile1, point2:line2)
 (tile1, point2:line3)

Run Code Online (Sandbox Code Playgroud)

distributed hadoop join mapreduce

rez*_*eza

2017 10-09

10
推荐指数

1
解决办法

2万
查看次数

在分布式张量流学习中使用参数服务器的原因是什么？

简短版本:我们不能将变量存储在其中一个worker中而不能使用参数服务器吗？

长版: 我想在tensorflow中实现神经网络的同步分布式学习.我希望每个工人在培训期间都能获得完整的模型副本.

我已经阅读了分布式tensorflow教程和分布式培训imagenet的代码,但我们不知道为什么我们需要参数服务器.

我看到它们用于存储变量的值,replica_device_setter注意变量在参数服务器之间均匀分布(可能它做了更多的事情,我无法完全理解代码).

问题是:为什么我们不使用其中一个工人来存储变量？如果我使用,我会实现吗？

with tf.device('/job:worker/task:0/cpu:0'):

Run Code Online (Sandbox Code Playgroud)

代替

with tf.device(tf.train.replica_device_setter(cluster=cluster_spec)):

Run Code Online (Sandbox Code Playgroud)

对于变量？如果与使用参数服务器的解决方案相比,这有效吗？

distributed tensorflow

kol*_*v93

lucky-day

10
推荐指数

1
解决办法

5867
查看次数

在Linux发行版中分发二进制应用程序

我编写了一个应用程序,它至今尚未开源,我想在各种Linux发行版中分发可执行文件.什么是最好的方法,我看了一点.rpm和.deb包装,但我无法找到是否可以用于二进制文件.理想情况下,我喜欢OS X上的PackageMaker或Windows上的常规安装程序,它会自动将其复制到/ usr/bin中.那是什么.rpm和.deb包是或者我必须捆绑一个自动执行它的shell脚本吗？

linux distributed packaging software-distribution package-managers

wha*_*hat

lucky-day

9
推荐指数

1
解决办法

3025
查看次数

Hadoop(+ HBase/HDFS)vs Mysql(或Postgres) - 要处理和查询的大量独立结构化数据

您好,在SO,

我想对你们尊敬和尊敬的一些人提出一些想法/意见.

我有100M记录需要处理.我有5个节点(在岩石群中)来做这件事.数据非常有条理,并且很好地适用于关系数据模型.我希望并行处理,因为我的处理需要一些时间.

我看到它有两个主要选择:

在每个节点上安装mysql,并在每个节点上放置20M记录.使用头节点将查询委派给节点并聚合结果. 查询功能++,但是当我选择分区策略等时,我可能会冒一些头痛的风险.(问:这就是他们所谓的mysql/postgres集群吗？).真正糟糕的是,记录的处理现在由我来处理(如何跨机器分发等)...

或者安装Hadoop,Hive和HBase(请注意,这可能不是存储数据的最有效方法,因为HBase是面向列的)并且只是定义节点.我们在MapReduce范例中写下了所有内容,而且,从此以后,我们幸福地生活着.这里的问题是我们失去了"实时"查询功能(我知道你可以使用Hive,但这不建议用于实时查询 - 我需要) - 因为我还有一些正常的sql查询有时执行" select*from wine where color ='brown'".

请注意,理论上 - 如果我有100M机器,我可以立即完成所有事情,因为对于每个记录,处理是独立于另一个.另外 - 我的数据是只读的.我没有想到会发生任何更新.我不需要/想要一个节点上的100M记录.我不希望有冗余数据(因为它有很多)所以保持它在两个mysql/postgres和Hadoop/HBase/HDFS.不是一个真正的选择.

非常感谢

mysql postgresql distributed database-design hadoop

Mal*_*dog

lucky-day

9
推荐指数

2
解决办法

1万
查看次数