标签: big-data

如果散列受 CPU 限制，如何检查大文件身份？

对于小文件散列就可以了，但是对于大文件，您可以轻松找到md5sumCPU 限制。是否有任何散列算法能够在多核上横向扩展？任何解决方法？想法？任何事物？:)

multi-core hash big-data

9
推荐指数

2
解决办法

6969
查看次数

我们可以在创建后编辑 bigquery 表的架构吗？

我错误地将字段指定为整数而不是浮点数。我发现创建表后我无法更正字段。我必须再次删除并重新创建表才能使事情正确。有谁知道在创建表后修改字段的更好方法？谢谢。

big-data google-cloud-platform

6
推荐指数

1
解决办法

8535
查看次数

存储网站图像的最佳方式是什么？

我们正在使用 cassandra 数据库存储网站信息，但我们不确定如何保存图像。

我们可以将它们存储在 cassandra 中，但我们也可以分配一个服务器来存储图像。

Cassandra 对于大数据存储有很好的性能，但是如果我们在 cassandra 中存储图像，我们必须将它们保存为字节。对于任何检索，首先我们必须从 cassandra 读取图像字节并将其存储在一个文件夹中，然后将其地址发送到网页。

你对这个问题有什么想法吗？

image performance storage cassandra big-data

3
推荐指数

1
解决办法

2万
查看次数

某些云应用程序的网络附加存储有多糟糕？

我听说某些“大数据”应用程序（例如 Hadoop、Cassandra、Solr）建议远离 AWS 托管，因为 EC2 实例通常使用网络附加存储（尽管最近有一些高 i/o 实例，但它们是显然很贵）。

对我来说，NAS 会带来相当不错的性能影响是有道理的，但有多少呢？既然 AWS 存在，那么大概有很多在这种类型的环境中有意义的应用程序示例，但是确定特定应用程序是否适合 AWS 和 NAS 的良好经验法则是什么？（除了坚持使用 AWS 并试用它。）

network-attached-storage amazon-web-services big-data

2
推荐指数

1
解决办法

337
查看次数

有没有办法发送（通过邮件）要安装在 azure 中的外部磁盘？

我们在外部磁盘（WD 护照）上有许多 TB 的数据，并希望使用 azure 的 VM 处理它。

上传将花费很长时间（并且带宽可能会花费太多）。

有没有办法将带有这些护照的包裹发送到蔚蓝的数据中心，以便它们作为外部磁盘连接并可用于 VM？

1
推荐指数

1
解决办法

51
查看次数

您在什么时候考虑从云迁移到托管？

我目前在 AWS 上的运营成本约为每月 25,000 美元至 40,000 美元。我在 Elasticsearch 中索引了大约 30TB 的数据，运行了一个 4 节点的生产集群和另一个 4 节点的临时集群。集群中的每个系统都是一个 m4.2xlarge，配备 10TB 的 IOPS SSD。我有需要运行的持续的一次性 EMR 作业，而且我还广泛使用 Elasticache。

我目前在 S3 中有一堆尚未编入索引的数据，这将使我的 30TB 数据远远超过 150TB，而且我开始担心我的运营成本。我只在云中运行基础设施，所以我对托管不是很熟悉。但是，对于我的用例，从长远来看，托管的成本似乎比 AWS 便宜得多。

同样，我的团队中有基础设施工程师可以处理数据中心任务等。所以，我已经在为此支付人工费用。我的问题：这样的举动会考虑哪些因素？每种方法的优缺点是什么，从 AWS 等云提供商迁移到 Colo 是否有意义？

colocation amazon-web-services big-data

0
推荐指数

1
解决办法

142
查看次数

标签统计

amazon-web-services ×2

google-cloud-platform ×1

hash ×1

network-attached-storage ×1

performance ×1