对于小文件散列就可以了,但是对于大文件,您可以轻松找到md5sumCPU 限制。是否有任何散列算法能够在多核上横向扩展?任何解决方法?想法?任何事物?:)
我错误地将字段指定为整数而不是浮点数。我发现创建表后我无法更正字段。我必须再次删除并重新创建表才能使事情正确。有谁知道在创建表后修改字段的更好方法?谢谢。
我们正在使用 cassandra 数据库存储网站信息,但我们不确定如何保存图像。
我们可以将它们存储在 cassandra 中,但我们也可以分配一个服务器来存储图像。
Cassandra 对于大数据存储有很好的性能,但是如果我们在 cassandra 中存储图像,我们必须将它们保存为字节。对于任何检索,首先我们必须从 cassandra 读取图像字节并将其存储在一个文件夹中,然后将其地址发送到网页。
你对这个问题有什么想法吗?
我听说某些“大数据”应用程序(例如 Hadoop、Cassandra、Solr)建议远离 AWS 托管,因为 EC2 实例通常使用网络附加存储(尽管最近有一些高 i/o 实例,但它们是显然很贵)。
对我来说,NAS 会带来相当不错的性能影响是有道理的,但有多少呢?既然 AWS 存在,那么大概有很多在这种类型的环境中有意义的应用程序示例,但是确定特定应用程序是否适合 AWS 和 NAS 的良好经验法则是什么?(除了坚持使用 AWS 并试用它。)
我们在外部磁盘(WD 护照)上有许多 TB 的数据,并希望使用 azure 的 VM 处理它。
上传将花费很长时间(并且带宽可能会花费太多)。
有没有办法将带有这些护照的包裹发送到蔚蓝的数据中心,以便它们作为外部磁盘连接并可用于 VM?
我目前在 AWS 上的运营成本约为每月 25,000 美元至 40,000 美元。我在 Elasticsearch 中索引了大约 30TB 的数据,运行了一个 4 节点的生产集群和另一个 4 节点的临时集群。集群中的每个系统都是一个 m4.2xlarge,配备 10TB 的 IOPS SSD。我有需要运行的持续的一次性 EMR 作业,而且我还广泛使用 Elasticache。
我目前在 S3 中有一堆尚未编入索引的数据,这将使我的 30TB 数据远远超过 150TB,而且我开始担心我的运营成本。我只在云中运行基础设施,所以我对托管不是很熟悉。但是,对于我的用例,从长远来看,托管的成本似乎比 AWS 便宜得多。
同样,我的团队中有基础设施工程师可以处理数据中心任务等。所以,我已经在为此支付人工费用。我的问题:这样的举动会考虑哪些因素?每种方法的优缺点是什么,从 AWS 等云提供商迁移到 Colo 是否有意义?
big-data ×6
azure ×1
cassandra ×1
colocation ×1
hash ×1
image ×1
multi-core ×1
performance ×1
storage ×1