标签: distributed-filesystem

小型分布式计算集群

我是一名高中生,试图为一个项目构建一个 linux 集群(今年夏天我有一堆不错的计算机准备重新映像,所以技术部门基本上说只要我不破坏它们,我就可以做任何事。

无论如何,我对构建集群一无所知,但我对 Linux 非常熟悉。

我需要知道这些事情: - 我应该使用什么发行版?它甚至重要吗?- 什么软件可以配置集群?- 机载或分布式 FS?- 任何可以提供体面指南或操作方法的网站?

linux cluster distributed-filesystem

13
推荐指数
2
解决办法
8864
查看次数

10
推荐指数
2
解决办法
587
查看次数

目录级别的 raid 1/LVM(又名 mknodding 目录)

我刚刚经历了数据丢失,所以我对某种形式的数据复制感兴趣。我在想mdadm和同伴通过软件来突袭 1。但是,我只想要一个给定的、不太大的目录来覆盖。我对这类工具没有真正的经验,但是我知道LVMmdadm都需要真正的块设备,因此必须清除任何现有数据。那不是我想要的。在我的 USB 闪存驱动器的 16Gb 中,我只想复制一小部分,比如 10Mb,可能在更小的 USB 闪存驱动器上,比如 1Gb。一些让我免于执行 cron rsync 的事情。我被困在这一点上。所以:

  1. 是否有其他工具可以像 raid 1 一样工作但使用逻辑目录作为后端,而不是块设备(驱动器、分区等...)?
  2. 或者,我可以使用 mdadm,只要我可以将外观目录作为操作系统的块设备,让人联想到循环设备。但是,我不想将目标目录打包在里面,比如说,一个图像文件,因为这很笨拙(如果它变大,调整它的大小很烦人)而且不便携(我碰巧在许多不同的操作系统上工作,Microsuck也是:当我将 USB 闪存插入 Win Os 时,我希望能够访问目标目录)。

software-raid backup distributed-filesystem block-device

5
推荐指数
1
解决办法
1064
查看次数

更换 GFS 集群的建议?

我有几个 CentOS GFS 集群(全局文件系统中的 GFS),使用光纤通道 SAN 中的共享磁盘。他们现在已经成熟了,是时候开始计划更换他们了。

它们是奇数个节点(3 或 5),并使用 APC (PDU) 电源开关设置故障节点的隔离。节点全部处于活动状态,并且在同一共享文件系统上同时读写。文件系统很小,目前还不到 1 TB,并且永远不会增长到超过商用硬盘驱动器的大小。

我有两个专有的 IP 地址资源,当节点关闭时它们会重新定位。(3 节点集群上为 1)。一切都运行良好,但当活动较多时,性能不是很好。

那么,我可以在下一代集群中做哪些不同的事情呢?

我需要的是服务正常运行时间和数据可用性。也可能具有可扩展性,但可能不会。我预计负载不会增加太多。我还需要能够像常规文件系统上的常规文件一样读写文件。不需要配额或 ACL。只是常规的 unix 权限、所有权、mtime、字节大小,以及以在除 1 个节点之外的所有节点上失败的方式创建锁定文件的能力ln(如果他们同时尝试的话)。

我不想增加物理服务器的数量(这意味着我想使用实际服务器本身的存储)。

这不是强制性的,但我认为如果我不依赖共享磁盘,那就太好了。在过去的 5 年里,我经历了两起企业级 SAN 存储不可用的事件,因此无论这种情况多么不可能,我都希望能领先一步。

由于正常运行时间非常重要,因此 1 台物理服务器和 1 个正在运行的内核太少了。虚拟机依赖于我们环境中的 SAN。

到目前为止我的想法:

  • 所有节点都可以是普通的 NFSv3 客户端(会ln按照我期望的方式工作吗?那么 NFS 服务器是什么?)
  • Ceph与 CephFS(FS 何时可以投入生产?)
  • XtreemFS(与 Ceph 相比,为什么有关它的文章如此之少?)

如您所见,我对分布式存储感兴趣,但需要经验丰富的专家的建议。特别欢迎有关 Ceph 或 XtreemFS 的建议或建议。这不是具有疯狂带宽需求的 HPC。只需要旧解决方案的可用性和可靠性,并希望具有灵活性,最好是比当前解决方案“更好”的配置。

编辑(参见 Nils 评论) 我考虑更换此解决方案的主要原因是我想看看是否可以消除 SAN 存储柜的单点故障。或者我应该使用 LVM 镜像将数据保存在同一 SAN 结构中的两个不同存储系统上?我认为两个 FC-HBA 和双交换机应该足够了。

nfs cluster distributed-filesystem

5
推荐指数
1
解决办法
6113
查看次数

并行 vs 分布式 vs 传统文件系统

我试图在非常基本的层面上理解这三个文件系统之间的差异。

  • 分布式文件系统:HDFS
  • 平行 FS : 光泽
  • 传统文件系统:ext4/ext3/NTFS/FAT 等。

我想知道这三个文件系统之间的基本概念差异是什么。我的大部分知识是关于传统文件系统的,即 ext3/4超级块、inode 等

  • 如果基于 MPI 的进程 (np=8) 尝试从文件系统读取文件或写入文件 A,那么文件访问机制在这些上下文中有何不同
  • 文件是如何存储在这个环境中的?即文件 A 将被拆分到多个磁盘或文件 A 将在存储上有冗余副本。或者更简单的场景是多个用户打开一个word文档然后保存它,那么在这3个场景中回写/同步有何不同

到目前为止,我已经形成了一些概念:-

  • 在本地文件系统中,存储物理安装在服务器/节点上。
  • 在并行文件系统中,一个磁盘在多个节点上共享(挂载),并且,
  • 在分布式FS中,多个节点有多个本地存储,但它们都通过某种机制同步。

如果我有 A、B 是工作站而 C、D 是磁盘:

  1. 如果 C物理安装在 A 上并格式化为 ext4,那么它就是传统的文件系统。
  2. 如果 C 物理安装在存储服务器 Z + C 是网络安装(NFS)在 A 和 B 上,那么这就是集群 FS。
  3. 如果 C 物理安装在 A 上,网络安装在 B 上,D 物理上安装在 B 上,网络安装在 A 上。那么这就产生了分布式 FS。

尽管有些答案指出元数据和数据位于并行文件系统中的单独服务器上,但在这里我也想了解如何在分布式文件系统中管理元数据?

storage filesystems distributed-filesystem mpi

5
推荐指数
1
解决办法
4825
查看次数

Linux 上的 ZFS 只读挂载 + Solaris 上的同步读写挂载

我们必须定期将相当大的文件从 Solaris 复制到 Linux(使用网络)。目前一个文件需要近半天的时间。Solaris 中的文件位于 ZFS 文件系统上。

所以我想,这真是太糟糕了——我们也许可以在 Linux 上安装 ZFS。

但 ZFS 不是集群(或可集群)文件系统。

假设:所以我认为我们可以,因为我们只是从 Solaris 进行复制 - 我们可以以只读方式挂载相同的 ZFS 文件系统,因此在这种情况下不必进行集群?因为写入仅在 Solaris 端(我们无法在那里卸载它)。

Solaris 机器非常繁忙,网络网卡几乎也总是非常繁忙。因此,通过将文件副本移动到 FC,速度应该会更快。

该 Linux 机器是 VMWare 主机上的虚拟来宾。所以,是的,可以向 Linux 来宾提供相同的 FC 结构。

想法?我认为假设部分是我最需要寻找反馈的地方。不确定是否可以在 Linux 上进行 ZFS 只读挂载 + 在 Solaris 上同时进行读写挂载。

linux filesystems zfs solaris distributed-filesystem

2
推荐指数
1
解决办法
2874
查看次数

为什么 Sun NFS(网络文件系统)是许多分布式文件系统的文件系统选择?

显然我的一些同行今天正在谈论它,我想知道这个文件系统有什么特别之处,使它成为许多分布式文件系统背后的选择,而不是现有的许多其他文件系统。

nfs distributed-filesystem

1
推荐指数
1
解决办法
453
查看次数