标签: big-data

如果散列受 CPU 限制,如何检查大文件身份?

对于小文件散列就可以了,但是对于大文件,您可以轻松找到md5sumCPU 限制。是否有任何散列算法能够在多核上横向扩展?任何解决方法?想法?任何事物?:)

multi-core hash big-data

9
推荐指数
2
解决办法
6969
查看次数

我们可以在创建后编辑 bigquery 表的架构吗?

我错误地将字段指定为整数而不是浮点数。我发现创建表后我无法更正字段。我必须再次删除并重新创建表才能使事情正确。有谁知道在创建表后修改字段的更好方法?谢谢。

big-data google-cloud-platform

6
推荐指数
1
解决办法
8535
查看次数

存储网站图像的最佳方式是什么?

我们正在使用 cassandra 数据库存储网站信息,但我们不确定如何保存图像。

我们可以将它们存储在 cassandra 中,但我们也可以分配一个服务器来存储图像。

Cassandra 对于大数据存储有很好的性能,但是如果我们在 cassandra 中存储图像,我们必须将它们保存为字节。对于任何检索,首先我们必须从 cassandra 读取图像字节并将其存储在一个文件夹中,然后将其地址发送到网页。

你对这个问题有什么想法吗?

image performance storage cassandra big-data

3
推荐指数
1
解决办法
2万
查看次数

某些云应用程序的网络附加存储有多糟糕?

我听说某些“大数据”应用程序(例如 Hadoop、Cassandra、Solr)建议远离 AWS 托管,因为 EC2 实例通常使用网络附加存储(尽管最近有一些高 i/o 实例,但它们是显然很贵)。

对我来说,NAS 会带来相当不错的性能影响是有道理的,但有多少呢?既然 AWS 存在,那么大概有很多在这种类型的环境中有意义的应用程序示例,但是确定特定应用程序是否适合 AWS 和 NAS 的良好经验法则是什么?(除了坚持使用 AWS 并试用它。)

network-attached-storage amazon-web-services big-data

2
推荐指数
1
解决办法
337
查看次数

有没有办法发送(通过邮件)要安装在 azure 中的外部磁盘?

我们在外部磁盘(WD 护照)上有许多 TB 的数据,并希望使用 azure 的 VM 处理它。

上传将花费很长时间(并且带宽可能会花费太多)。

有没有办法将带有这些护照的包裹发送到蔚蓝的数据中心,以便它们作为外部磁盘连接并可用于 VM?

azure big-data

1
推荐指数
1
解决办法
51
查看次数

您在什么时候考虑从云迁移到托管?

我目前在 AWS 上的运营成本约为每月 25,000 美元至 40,000 美元。我在 Elasticsearch 中索引了大约 30TB 的数据,运行了一个 4 节点的生产集群和另一个 4 节点的临时集群。集群中的每个系统都是一个 m4.2xlarge,配备 10TB 的 IOPS SSD。我有需要运行的持续的一次性 EMR 作业,而且我还广泛使用 Elasticache。

我目前在 S3 中有一堆尚未编入索引的数据,这将使我的 30TB 数据远远超过 150TB,而且我开始担心我的运营成本。我只在云中运行基础设施,所以我对托管不是很熟悉。但是,对于我的用例,从长远来看,托管的成本似乎比 AWS 便宜得多。

同样,我的团队中有基础设施工程师可以处理数据中心任务等。所以,我已经在为此支付人工费用。我的问题:这样的举动会考虑哪些因素?每种方法的优缺点是什么,从 AWS 等云提供商迁移到 Colo 是否有意义?

colocation amazon-web-services big-data

0
推荐指数
1
解决办法
142
查看次数