有人有使用 MooseFS 的经验吗?我想要一个简单的分布式存储平台来存储大约 10 TB 的静态数据存档并将其提供给 20-40 个节点。此外,我希望能够随着存档的增长而添加存储,而无需重建文件系统。我不在乎它是否有点慢。我只是希望它简单而稳定。基本上从我所看到的 OS X 来看,它介于 MooseFS 和 Gluster 之间。还有其他建议吗?
我的服务器基础设施发展迅速,我决定创建一个分布式存储集群。我一直在为这个任务寻找一个合适的文件系统来满足我的要求,但它们都不支持本地磁盘缓存功能。我的每台服务器都有两个 600GB SAS 硬盘驱动器,我喜欢将它们用作缓存存储,用于存储来自分布式存储的最常访问的文件。
是否有任何开源文件系统支持此功能?我喜欢使用 Ceph 或 GlusterFS,但我没有找到有关本地磁盘缓存的任何信息。我认为这是分布式文件系统应该支持的基本功能之一。
我的项目使用了几台加工机和一台存储机。当前使用 MSSQL 文件表共享文件夹组织的存储。存储中的每个文件在数据库中都有一些元数据。
处理机器执行需要存储文件及其元数据的任务。完成任务后,处理机将结果数据放回存储中。从那里它被另一台处理机器取走,它也会生成一些文件并将其放回存储中。等等。
一切都很好,但是随着处理机器数量的增加,我发现自己遇到了存储机器硬盘驱动器性能的瓶颈。
所以我希望处理机器将文件放在分布式FS中。从存储机器上提升负载,他们可以从存储机器中获取数据,而不仅仅是存储机器。
你能推荐一个满足我需求的特定分布式 FS 吗?或者有另一种方法来解决这个问题,没有它?
FS 中一次的数据量就像几个 TB。(存储可以处理这个,但处理器不能)。数据一致性至关重要。读写策略是:一旦文件被写入 - 它的常量并且只能被删除,但不能被修改。
我当前的平台是 Windows,但我准备切换它,如果在另一个平台上有更方便的解决方案。
我正在研究将单个服务器/comp 转换为 glusterfs 分布式系统的开始。我已经在这台 24TB RAID 的服务器上安装了一个目录。我想使用这台初始计算机来设置带有此卷/目录的 glusterfs,然后很快添加其他砖块/计算机。我不确定我是否可以使用包含文件的卷/目录。
我们是一家在全国设有分支机构的公司。每个分支最少有 1 个 T1,最多有 2 个 T1。我们在每个分支机构和总公司都有一台 DFS 服务器。在过去的一周中,一个特别麻烦的共享包含我们的一些用户文件,从来没有积压过 0 个文件。我一直在调整复制计划以尝试清除它,并且我管理的最低文件是该特定共享的 1500 个文件。
所以我的问题是:
我一直在研究分布式数据库和文件系统,虽然我最初对 Hadoop/HBase 最感兴趣,因为我是一名 Java 程序员,但我发现了这个关于Ceph 的非常有趣的文档,它作为一个主要的加分点,现在集成在Linux内核。
有一件事我不明白,我希望你们中的一位能向我解释。这里是:
一个简单的哈希函数将对象标识符 (OID) 映射到一个归置组,即一组存储对象及其所有副本的 OSD。有数量有限的归置组来创建 OSD 数量的上限,这些 OSD 存储存储在任何给定 OSD 上的对象的副本。该数字越高,多个节点的故障导致数据丢失的可能性就越大。例如,如果每个 OSD 与其他每个 OSD 都有副本关系,那么整个集群中仅三个节点的故障就可以清除所有三个副本上存储的数据。
您能否向我解释为什么更多的归置组会增加数据丢失的可能性?我会认为这是相反的。
免责声明是的,我要求您为我设计一个系统:)
我的任务是设计一个系统来存储大约 10 TB/天的数据,保留时间为 180 天。
我的第一种方法是使用 GlusterFS 并使用这样的硬件设置:
系统中的单个节点:
我需要 9 个节点来获得可以保存数据的网络存储(没有复制或对本地磁盘的突袭)。
优点:
缺点:
我没有任何实际的首选方向,只有一些使用 GlusterFS 的经验,我有一个 4 TB 系统(分布式、复制、4 个节点)已经在使用 GlusterFS。
我很确定这个设置运行 Hadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElse 没有太大区别,但用例是(drumroll):
ls -ltr | grep 'something' | xargs grep somethingelse
Run Code Online (Sandbox Code Playgroud)
是的,这很可怕。我试图说服人们对这些数据进行真正的分析工作,但似乎这不会发生。(好吧,没那么糟糕,但那些人会在一些“分析”系统上使用一个简单的 ssh 会话来手动转到某个目录,递归查看一些文件,然后确定数据是否正常,现在听起来更糟我写的)
我对任何想法持开放态度,我确实有人在我们公司内运行“大存储”(例如,一个备份系统有 2PB),我很乐意使用他们已经可用的任何东西。但我也必须证明他们在做正确的事情(请不要问这是一个政治问题,我相信我的数据给存储团队,我不知道为什么我必须重复工作)
考虑如何实际对数据进行分析的问题显然超出了范围。 …
我有一个客户端,有 150 台 Linux 服务器,分布在各种云服务和物理数据中心。这种基础设施的大部分是收购的项目/团队和预先存在的服务器/安装。
客户端主要用于图像处理,许多服务器都有大型 SAN 或本地磁盘阵列,其中包含数百万个 jpeg/png 文件。
每个盒子上都有一个配置管理代理,我可以看到很多磁盘都是100%,有的很空,还有很多重复的数据。
客户端现在可以访问 CDN。但目前仅仅列举可能的情况是一项艰巨的任务。
是否有任何工具可以为所有这些数据创建有用的索引?
我看到像GlusterFS这样的工具来管理这些分布式文件系统,还有Hadoop HDFS
我想知道是否可以在不实际实现底层卷管理工具的情况下使用这些系统的索引工具。
生成潜在重复数据删除候选索引的起点应该是什么?
I'm trying to set up a redundant setup consisting of two servers that have everything redundant:
Mostly one of the two servers will be the "main" server and the other will replicate all it's data and will also be used to distribute workload (Gearman). In case the main server fails, everything is switched to the "standby" server which …
我们已经设置了一对 GlusterFS 服务器镜像。无需特殊调整,无论官方 RHEL6 RPM 中的 GlusterFS-3.5.1 “开箱即用”什么,这就是我们所拥有的。
集群可以工作,但性能非常糟糕。例如,firefox-31.0.source.tar.bz2通过本地主机上的 GlusterFS 提取一个大的 tarball () 需要长达 44 分钟的时间。直接在同一磁盘上提取相同的文件所需时间不到 2。删除创建的树也存在类似的差异(通过 gluster 需要 10 分钟)...
当然,可以预见的是,需要进行镜像,等等,使用网络的文件系统会更慢——但是慢30 倍?简单地复制大文件速度很快——所以这不是我们所缺乏的带宽。当解压正在运行时,我看到glusterfs(客户端)和glusterfsd(服务器)进程都消耗了大量的 CPU(每个进程大约 10%),但系统仍然保持大约 70% 的空闲状态——两个 gluster 进程都消耗了大量的 CPU。比提取 bzip2 和 tar 更忙......他们在做什么?
我可以做一些调整来显着提高性能吗?或者我应该尝试ceph(或gfarm?)而不是 gluster ?或者对于大量的小文件来说它们都很糟糕?谢谢你!
performance-tuning distributed-filesystems glusterfs ceph glusterfs-3.5