标签: glusterfs

您可以使用目录中的现有数据创建 glusterfs 吗?

我正在研究将单个服务器/comp 转换为 glusterfs 分布式系统的开始。我已经在这台 24TB RAID 的服务器上安装了一个目录。我想使用这台初始计算机来设置带有此卷/目录的 glusterfs,然后很快添加其他砖块/计算机。我不确定我是否可以使用包含文件的卷/目录。

network-attached-storage distributed-filesystems glusterfs

5
推荐指数
1
解决办法
2264
查看次数

硬件/软件设计:2 PB 的存储空间

免责声明是的,我要求您为我设计一个系统:)

我的任务是设计一个系统来存储大约 10 TB/天的数据,保留时间为 180 天。

我的第一种方法是使用 GlusterFS 并使用这样的硬件设置:

系统中的单个节点:

我需要 9 个节点来获得可以保存数据的网络存储(没有复制或对本地磁盘的突袭)。

优点:

  • 我可以从没有架子的单个服务器开始
  • 通过向单个服务器添加架子来增长(或添加服务器,只需考虑通过首先添加节点或首先添加架子或两者的混合来扩展)
  • “无限”缩放(对于“无限”的某些定义)

缺点:

  • 总的来说:我实际上不知道如何验证一旦我达到扩展的最后阶段这是否是一个可行的设置(估计 1.8 PB)

我没有任何实际的首选方向,只有一些使用 GlusterFS 的经验,我有一个 4 TB 系统(分布式、复制、4 个节点)已经在使用 GlusterFS。

我很确定这个设置运行 Hadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElse 没有太大区别,但用例是(drumroll):

ls -ltr | grep 'something' | xargs grep somethingelse
Run Code Online (Sandbox Code Playgroud)

是的,这很可怕。我试图说服人们对这些数据进行真正的分析工作,但似乎这不会发生。(好吧,没那么糟糕,但那些人会在一些“分析”系统上使用一个简单的 ssh 会话来手动转到某个目录,递归查看一些文件,然后确定数据是否正常,现在听起来更糟我写的

我对任何想法持开放态度,我确实有人在我们公司内运行“大存储”(例如,一个备份系统有 2PB),我很乐意使用他们已经可用的任何东西。但我也必须证明他们在做正确的事情(请不要问这是一个政治问题,我相信我的数据给存储团队,我不知道为什么我必须重复工作)

考虑如何实际对数据进行分析的问题显然超出了范围。 …

distributed-filesystems glusterfs

5
推荐指数
1
解决办法
1054
查看次数

将 gluster 卷与卷本身安装在同一台机器上是个好主意吗?

我有以下gluster卷,详情如下

Volume Name: geo-vol
Type: Distribute
Status: Started
Number of Bricks: 1
Transport-type: tcp
Bricks:
Brick1: bst:/backup
Options Reconfigured:
geo-replication.indexing: on
Run Code Online (Sandbox Code Playgroud)

我将此卷安装在与 nfs mount 相同的机器上,而brick1 也在同一台机器上,而不是使用异地复制将其镜像到备份服务器。

从我的设置中可以看出,我使用 glusterfs 进行几乎实时备份。

我只需要可靠的方法将我的数据备份到辅助服务器,之前我使用 rsync 但随着文件数量的增加它开始占用大量内存,所以我们切换到 gluster,当我们尝试实时复制时,它妨碍了服务器的性能,所以最后我们使用了ge-replication,我们现在面临的一个问题是gluster的cpu消耗非常高,我向gluster邮件列表提出了这个问题但没有更新。

linux backup glusterfs

5
推荐指数
1
解决办法
3993
查看次数

重命名 GlusterFS Peer

我有一个 2 对等 GlusterFS 系统。它最初是使用简单的主机名 file01 和 file02 创建的。这些主机被添加到 /etc/hosts 以使其工作。

现在我们要开始使用 FQDN,因为我们要使用 GlusterFS 本机客户端将其他服务器附加到卷。我们不想为每个服务器维护主机文件。

是否可以重新配置当前设置以使用完整的主机名 file01.example.com 和 file02.example.com?

谢谢!

linux fqdn glusterfs

5
推荐指数
1
解决办法
4083
查看次数

GlusterFS 快照备份解决方案

我们正在寻找一种快速的方法来拍摄我们的 gluster 砖的时间点快照。

  • 它是一个完美的时间点快照并不重要(即,如果文件在备份期间更改/添加/删除,备份可以有/没有这些更改)。

  • 理想情况下,它可以作为实时(无停机)备份运行,但我们可以处理从集群中删除一个节点,然后在需要时重新添加它。

  • 备份需要传输到远程位置,但如果需要,可以在本地进行初始备份后完成此操作。

  • 我们有多个砖块。所有这些都需要备份,可以单独或一次性完成。

  • glusterfs 3.5.3在撰写本文时,我们目前正在运行,但在发布新版本时确实会升级。

我们已经考虑过使用 rsync(就像我们在普通卷上所做的那样)但是它在 gluster 上真的很慢,因为我们有成千上万的非常小的文件(100kb - 3mb),我的理解是 gluster 与每个节点的所有节点对话文件以确保它提供正确的版本。我们可以在服务器节点之一(而不是通过 glusterfs 客户端)上的数据目录位置进行 rsync 同步吗?这是否会按预期工作并且速度更快,因为它不需要检查所有节点的内容?

Gluster Volume Snapshot听起来像是完美的解决方案,但我认为它还没有发布。

gluster 存储节点有 LVM,但我不太熟悉它的来龙去脉。这可能是一个解决方案吗?

有没有其他人对如何处理这种情况有好的建议?还是真实的生活经历?谢谢你。

backup rsync glusterfs

5
推荐指数
1
解决办法
4853
查看次数

如何重置 glusterd 配置?

不知何故,我无法在 ubuntu 14.04 上再次运行 glusterfs。几天前我曾经启动并运行它,包括配置的卷。然后我从自动启动中删除了启动脚本。

现在我在启动守护程序时“失败”。然后我清除了软件包并尝试重新安装。这是我得到以下输出的地方:

Setting up glusterfs-server (3.7.3-ubuntu1~trusty1) ...
 * Starting glusterd service glusterd                                                                                                                                    [fail] 
invoke-rc.d: initscript glusterfs-server, action "start" failed.
dpkg: error processing package glusterfs-server (--configure):
 subprocess installed post-installation script returned error exit status 1
Processing triggers for ureadahead (0.100.0-16) ...
sh: 0: getcwd() failed: No such file or directory
sh: 0: getcwd() failed: No such file or directory
                                                                                                  Errors were encountered while processing:
 glusterfs-server
E: Sub-process /usr/bin/dpkg returned an error code (1)
Run Code Online (Sandbox Code Playgroud)

这是日志文件的条目:

[2015-08-23 19:10:33.979995] I …
Run Code Online (Sandbox Code Playgroud)

glusterfs

5
推荐指数
1
解决办法
1万
查看次数

如何正确配置 2 节点 glusterfs 系统?

我正在尝试使用 glusterfs 3.7.6 进行数据复制和起搏器 + corosync 作为资源管理器来制作具有高可用 apache 的 2 节点 linux 服务器。但是,当两个节点都关闭并且其中一个首先联机时,我在特定场景中看到 gluster 出现问题。即使该节点上有一个砖块并且 gluster 服务正在运行,也没有砖块进程。

[root@node1 ~]# gluster volume status data 
Status of volume: data
Gluster process                             TCP Port  RDMA Port  Online  Pid
------------------------------------------------------------------------------
Brick node1:/gluster_data                   N/A       N/A        N       N/A  
NFS Server on localhost                     N/A       N/A        N       N/A  
NFS Server on localhost                     N/A       N/A        N       N/A  

Task Status of Volume data
------------------------------------------------------------------------------
There are no active volume tasks
Run Code Online (Sandbox Code Playgroud)

当我启动另一个节点时,似乎一切正常,我可以挂载该卷。

[root@node1 ~]# gluster volume status data
Status of volume: …
Run Code Online (Sandbox Code Playgroud)

linux glusterfs centos7

5
推荐指数
1
解决办法
7721
查看次数

使用 GlusterFS 进行简单复制

新手问题。我需要构建这个:

  • /shared 文件夹 ~500GB 的文件,每个 ~1MB。
  • 通过 1Gbs LAN 连接的两个盒子(server1 和 server2)
  • 每个盒子都需要获得对文件的 r/w 访问权限,因此它们都是客户端
  • 我希望在两个盒子上复制文件,每次将文件写入一台服务器时,另一台服务器中都应该存在相同的文件。

我关于 GlusterFS 的问题:

  • 它会复制同一个盒子上的文件吗?。例如,文件在上/shared,安装在/mnt/shared. 每台服务器需要 1GB 空间?
  • 相反,我应该直接使用文件系统,在本地写入/shared吗?在没有安装客户端的情况下,复制是否以这种方式工作?

另外,如果有人知道任何其他方式来完成此设置,我将不胜感激。提前致谢。

ubuntu replication distribution glusterfs

4
推荐指数
2
解决办法
5857
查看次数

分布式存储

在我的大学部门,我们即将升级我们学生实验室的计算机(大约 25-30 台机器)。这些机器将运行 Linux。

关于新机器的一件事是它们有巨大的 (1TB) 硬盘(我们没有要求它们,但无论如何现在你找不到便宜得多的磁盘!)

目前,用户主目录存储在中央文件服务器上并通过 nfs 挂载。

所以问题是,有什么办法可以使用所有这些磁盘容量吗?我会考虑

  • 扩展我们的中央文件存储,或
  • 复制主目录以加快访问速度。

主要问题是实验室机器不能保证一直运行。

浏览此站点时,我阅读了有关GlusterFSAFS 的信息

GlusterFS 似乎有很多朋友,是一个很好的通用解决方案。

AFS呢?我读过它有性能问题,有经验吗?

filesystems distributed-filesystems glusterfs openafs

4
推荐指数
1
解决办法
257
查看次数

具有数百万个文件和目录的多个 Linux 服务器之间的实时文件同步

同步正在运行的生产服务器的大量数据的最佳方法是什么?

我们的服务器在 100 万个目录中存储了超过 2000 万个文件(10k 的小文件和高达 50MB 的更大文件)。所有数据的大小约为 5 TB(稳步增加)。

是否可以使用 lsyncd 同步数据以及有哪些限制(尤其是 inotify)?lsyncd 需要多少额外空间?负载(CPU 和内存)和实时时间如何?

另一种解决方案是 GlusterFS。是否可以在没有停机或停机时间最短的生产中使用 GlusterFS?GlusterFS 在 x-attributes 文件中存储了大量魔法数据,存储量比没有 GlusterFS 的系统大 15% 到 20%。好像浪费了很多……?负载呢?

至少 rsync 和 cronjobs 可以完成这项工作。rsync 只会在从属服务器上运行......所以主服务器上不需要额外的空间,但是每次 cron 运行时 rsync 必须读取完整的目录树......

linux synchronization glusterfs lsyncd

4
推荐指数
1
解决办法
901
查看次数