我正在研究将单个服务器/comp 转换为 glusterfs 分布式系统的开始。我已经在这台 24TB RAID 的服务器上安装了一个目录。我想使用这台初始计算机来设置带有此卷/目录的 glusterfs,然后很快添加其他砖块/计算机。我不确定我是否可以使用包含文件的卷/目录。
免责声明是的,我要求您为我设计一个系统:)
我的任务是设计一个系统来存储大约 10 TB/天的数据,保留时间为 180 天。
我的第一种方法是使用 GlusterFS 并使用这样的硬件设置:
系统中的单个节点:
我需要 9 个节点来获得可以保存数据的网络存储(没有复制或对本地磁盘的突袭)。
优点:
缺点:
我没有任何实际的首选方向,只有一些使用 GlusterFS 的经验,我有一个 4 TB 系统(分布式、复制、4 个节点)已经在使用 GlusterFS。
我很确定这个设置运行 Hadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElse 没有太大区别,但用例是(drumroll):
ls -ltr | grep 'something' | xargs grep somethingelse
Run Code Online (Sandbox Code Playgroud)
是的,这很可怕。我试图说服人们对这些数据进行真正的分析工作,但似乎这不会发生。(好吧,没那么糟糕,但那些人会在一些“分析”系统上使用一个简单的 ssh 会话来手动转到某个目录,递归查看一些文件,然后确定数据是否正常,现在听起来更糟我写的)
我对任何想法持开放态度,我确实有人在我们公司内运行“大存储”(例如,一个备份系统有 2PB),我很乐意使用他们已经可用的任何东西。但我也必须证明他们在做正确的事情(请不要问这是一个政治问题,我相信我的数据给存储团队,我不知道为什么我必须重复工作)
考虑如何实际对数据进行分析的问题显然超出了范围。 …
我有以下gluster卷,详情如下
Volume Name: geo-vol
Type: Distribute
Status: Started
Number of Bricks: 1
Transport-type: tcp
Bricks:
Brick1: bst:/backup
Options Reconfigured:
geo-replication.indexing: on
Run Code Online (Sandbox Code Playgroud)
我将此卷安装在与 nfs mount 相同的机器上,而brick1 也在同一台机器上,而不是使用异地复制将其镜像到备份服务器。
从我的设置中可以看出,我使用 glusterfs 进行几乎实时备份。
我只需要可靠的方法将我的数据备份到辅助服务器,之前我使用 rsync 但随着文件数量的增加它开始占用大量内存,所以我们切换到 gluster,当我们尝试实时复制时,它妨碍了服务器的性能,所以最后我们使用了ge-replication,我们现在面临的一个问题是gluster的cpu消耗非常高,我向gluster邮件列表提出了这个问题但没有更新。
我有一个 2 对等 GlusterFS 系统。它最初是使用简单的主机名 file01 和 file02 创建的。这些主机被添加到 /etc/hosts 以使其工作。
现在我们要开始使用 FQDN,因为我们要使用 GlusterFS 本机客户端将其他服务器附加到卷。我们不想为每个服务器维护主机文件。
是否可以重新配置当前设置以使用完整的主机名 file01.example.com 和 file02.example.com?
谢谢!
我们正在寻找一种快速的方法来拍摄我们的 gluster 砖的时间点快照。
它是一个完美的时间点快照并不重要(即,如果文件在备份期间更改/添加/删除,备份可以有/没有这些更改)。
理想情况下,它可以作为实时(无停机)备份运行,但我们可以处理从集群中删除一个节点,然后在需要时重新添加它。
备份需要传输到远程位置,但如果需要,可以在本地进行初始备份后完成此操作。
我们有多个砖块。所有这些都需要备份,可以单独或一次性完成。
glusterfs 3.5.3在撰写本文时,我们目前正在运行,但在发布新版本时确实会升级。
我们已经考虑过使用 rsync(就像我们在普通卷上所做的那样)但是它在 gluster 上真的很慢,因为我们有成千上万的非常小的文件(100kb - 3mb),我的理解是 gluster 与每个节点的所有节点对话文件以确保它提供正确的版本。我们可以在服务器节点之一(而不是通过 glusterfs 客户端)上的数据目录位置进行 rsync 同步吗?这是否会按预期工作并且速度更快,因为它不需要检查所有节点的内容?
Gluster Volume Snapshot听起来像是完美的解决方案,但我认为它还没有发布。
gluster 存储节点有 LVM,但我不太熟悉它的来龙去脉。这可能是一个解决方案吗?
有没有其他人对如何处理这种情况有好的建议?还是真实的生活经历?谢谢你。
不知何故,我无法在 ubuntu 14.04 上再次运行 glusterfs。几天前我曾经启动并运行它,包括配置的卷。然后我从自动启动中删除了启动脚本。
现在我在启动守护程序时“失败”。然后我清除了软件包并尝试重新安装。这是我得到以下输出的地方:
Setting up glusterfs-server (3.7.3-ubuntu1~trusty1) ...
* Starting glusterd service glusterd [fail]
invoke-rc.d: initscript glusterfs-server, action "start" failed.
dpkg: error processing package glusterfs-server (--configure):
subprocess installed post-installation script returned error exit status 1
Processing triggers for ureadahead (0.100.0-16) ...
sh: 0: getcwd() failed: No such file or directory
sh: 0: getcwd() failed: No such file or directory
Errors were encountered while processing:
glusterfs-server
E: Sub-process /usr/bin/dpkg returned an error code (1)
Run Code Online (Sandbox Code Playgroud)
这是日志文件的条目:
[2015-08-23 19:10:33.979995] I …Run Code Online (Sandbox Code Playgroud) 我正在尝试使用 glusterfs 3.7.6 进行数据复制和起搏器 + corosync 作为资源管理器来制作具有高可用 apache 的 2 节点 linux 服务器。但是,当两个节点都关闭并且其中一个首先联机时,我在特定场景中看到 gluster 出现问题。即使该节点上有一个砖块并且 gluster 服务正在运行,也没有砖块进程。
[root@node1 ~]# gluster volume status data
Status of volume: data
Gluster process TCP Port RDMA Port Online Pid
------------------------------------------------------------------------------
Brick node1:/gluster_data N/A N/A N N/A
NFS Server on localhost N/A N/A N N/A
NFS Server on localhost N/A N/A N N/A
Task Status of Volume data
------------------------------------------------------------------------------
There are no active volume tasks
Run Code Online (Sandbox Code Playgroud)
当我启动另一个节点时,似乎一切正常,我可以挂载该卷。
[root@node1 ~]# gluster volume status data
Status of volume: …Run Code Online (Sandbox Code Playgroud) 新手问题。我需要构建这个:
/shared 文件夹 ~500GB 的文件,每个 ~1MB。 我关于 GlusterFS 的问题:
/shared,安装在/mnt/shared. 每台服务器需要 1GB 空间?/shared吗?在没有安装客户端的情况下,复制是否以这种方式工作?另外,如果有人知道任何其他方式来完成此设置,我将不胜感激。提前致谢。
在我的大学部门,我们即将升级我们学生实验室的计算机(大约 25-30 台机器)。这些机器将运行 Linux。
关于新机器的一件事是它们有巨大的 (1TB) 硬盘(我们没有要求它们,但无论如何现在你找不到便宜得多的磁盘!)
目前,用户主目录存储在中央文件服务器上并通过 nfs 挂载。
所以问题是,有什么办法可以使用所有这些磁盘容量吗?我会考虑
主要问题是实验室机器不能保证一直运行。
浏览此站点时,我阅读了有关GlusterFS和AFS 的信息。
GlusterFS 似乎有很多朋友,是一个很好的通用解决方案。
AFS呢?我读过它有性能问题,有经验吗?
同步正在运行的生产服务器的大量数据的最佳方法是什么?
我们的服务器在 100 万个目录中存储了超过 2000 万个文件(10k 的小文件和高达 50MB 的更大文件)。所有数据的大小约为 5 TB(稳步增加)。
是否可以使用 lsyncd 同步数据以及有哪些限制(尤其是 inotify)?lsyncd 需要多少额外空间?负载(CPU 和内存)和实时时间如何?
另一种解决方案是 GlusterFS。是否可以在没有停机或停机时间最短的生产中使用 GlusterFS?GlusterFS 在 x-attributes 文件中存储了大量魔法数据,存储量比没有 GlusterFS 的系统大 15% 到 20%。好像浪费了很多……?负载呢?
至少 rsync 和 cronjobs 可以完成这项工作。rsync 只会在从属服务器上运行......所以主服务器上不需要额外的空间,但是每次 cron 运行时 rsync 必须读取完整的目录树......
glusterfs ×10
linux ×4
backup ×2
centos7 ×1
distribution ×1
filesystems ×1
fqdn ×1
lsyncd ×1
openafs ×1
replication ×1
rsync ×1
ubuntu ×1