我听过很多次这两个词,
但总是困惑.
我猜:
这有区别吗?
我们正在为Python + Celery开发一个用于我们任务队列的分布式应用程序.
我们的应用程序要求我们通过IMAP(例如:gmail)从远程ISP下载电子邮件,我们希望能够并行完成此任务.对于给定的电子邮件帐户,您被授予限制为多个模拟连接,因此我们需要一种方法来原子地跟踪所有正在下载的帐户的活动连接.
我已经使用Redis找到了Celery的多个原子锁示例,但没有一个可以跟踪这样的有限资源池,并且所有实现我们自己的尝试都导致难以调试竞争条件,导致我们的锁定间歇性地永远不会被释放.
HBase有一个主从模型,而Cassandra有一个点对点模型.我知道在主从模型中,主服务器是SPOF(单点故障),并且在对等模型中没有这样的东西.
每种型号还有其他优缺点吗?特别是我正在寻找主对手在对等模型上的任何优势.
有没有人试图跨多个数据中心测试数据节点的性能?特别是在小管道网络上.我似乎无法找到太多关于它的信息,我发现的信息要么是旧的(大约2010年),要么是专有的(似乎DataStax有一些东西).我知道Hadoop支持机架识别,但就像我说我没有看到任何用于调整多个数据中心系统的文档.
在80%已满的YARN集群中,我们看到一些纱线节点管理器被标记为不健康.在挖掘日志之后我发现了它,因为数据目录的磁盘空间已满90%.有以下错误
2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: Node hdp009.abc.com:8041 reported UNHEALTHY with details: 4/4 local-dirs are bad: /data3/yarn/nm,/data2/yarn/nm,/data4/yarn/nm,/data1/yarn/nm;
2015-02-21 08:33:51,590 INFO org.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl: hdp009.abc.com:8041 Node Transitioned from RUNNING to UNHEALTHY
Run Code Online (Sandbox Code Playgroud)
我试图了解纱线如何标记节点不健康&有没有办法改变门槛?
谢谢
hadoop distributed-computing cloudera hadoop-yarn cloudera-cdh
哪个是实际使用的差异?我找到了这个IBM链接和这个问题MPI - MPI_Init和MPI_Init_thread的一个函数.如果重要的话,我只对C感兴趣.
两个功能的描述相同:
MPI_Init_thread初始化MPI执行环境
正如你在他们的refs中看到的那样:MPI_Init()和MPI_Init_thread(),但参数不同.
c parallel-processing multithreading distributed-computing mpi
根据Spark RDD文档:
Spark中的所有转换都是懒惰的,因为它们不会立即计算结果......这种设计使Spark能够更有效地运行.
有些时候我需要做一些操作,我dataframes倍右当时和现在.但是因为数据帧操作被" 懒惰地评估 "(如上所述),当我在代码中编写这些操作时,很少有人保证Spark会实际执行与其余代码内联的操作.例如:
val someDataFrame : DataFrame = getSomehow()
val someOtherDataFrame : DataFrame = getSomehowAlso()
// Do some stuff with 'someDataFrame' and 'someOtherDataFrame'
// Now we need to do a union RIGHT HERE AND NOW, because
// the next few lines of code require the union to have
// already taken place!
val unionDataFrame : DataFrame = someDataFrame.unionAll(someOtherDataFrame)
// Now do some stuff with 'unionDataFrame'...
Run Code Online (Sandbox Code Playgroud)
所以我的解决方法(到目前为止)已经运行.show()或.count()紧跟我的时间敏感数据帧操作,如下所示:
val …Run Code Online (Sandbox Code Playgroud) distributed-computing lazy-evaluation apache-spark rdd spark-dataframe
Dask.distributed部署有数百个工作节点的传闻吗?分布是否意味着扩展到这个大小的集群?
我对以下方面的基本理解:
分布式计算是连接节点的模型-从硬件角度来看,它们仅共享网络连接-并通过消息进行通信。每个节点代码负责业务逻辑的一部分,因为在ERP系统中,有一个用于hr的节点,一个用于计费的节点。通信可以是HTML,SOA,RCP
微服务是一种服务,它负责业务逻辑的一部分并通常通过http相互通信。微服务可以共享硬件资源,并且可以通过其api访问。
并行系统是优化资源使用的系统。例如在共享内存资源的多个线程上运行的多线程应用程序。
由于微服务是分布式系统,我有点困惑,但是当在单个硬件资源上运行多个微服务时,它们也是并行系统。我在这里正确吗:
将文件保存为区块链数据的一部分的最佳做法是什么?我有非常大的文件要保存.
我们不能将这些文件保存在云存储(像Dropbox这样的集中式解决方案)上,并使用文件哈希将它们与区块链数据链接起来吗?或者使用像IPFS这样的分布式文件存储更好?或者在安全性,数量,性能和容错方面是否有更好的解决方案.
distributed-computing blockchain ethereum hyperledger hyperledger-fabric
hadoop ×2
python ×2
terminology ×2
apache-spark ×1
blockchain ×1
c ×1
cassandra ×1
celery ×1
cloudera ×1
cloudera-cdh ×1
dask ×1
ethereum ×1
hadoop-yarn ×1
hbase ×1
hyperledger ×1
master-slave ×1
mpi ×1
p2p ×1
rdd ×1
semaphore ×1