标签: ceph

具有 xfs、20 个磁盘和 Ceph 的“大型”服务器上页面碎片的原因

对 linux IO 系统有一定经验的人的任何见解都会有所帮助。这是我的故事：

最近建立了一个由六个 Dell PowerEdge rx720xds 组成的集群，通过 Ceph 提供文件。这些机器在两个插槽上有 24 个内核，有两个 numa 区域和 70 GB 的内存。磁盘被格式化为一个磁盘的突袭（否则我们看不到直接暴露它们的方法）。网络由 mellanox infiniband IP over IB 提供（IP 数据包在内核领域变成 IB，而不是硬件）。

我们将每个 SAS 驱动器安装如下：

# cat /proc/mounts | grep osd
/dev/sdm1 /var/lib/ceph/osd/ceph-90 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdj1 /var/lib/ceph/osd/ceph-87 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdu1 /var/lib/ceph/osd/ceph-99 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdd1 /var/lib/ceph/osd/ceph-82 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdk1 /var/lib/ceph/osd/ceph-88 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdl1 /var/lib/ceph/osd/ceph-89 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdh1 /var/lib/ceph/osd/ceph-86 xfs rw,noatime,attr2,inode64,noquota 0 0
/dev/sdo1 /var/lib/ceph/osd/ceph-97 xfs …

Run Code Online (Sandbox Code Playgroud)

linux xfs fragmentation linux-kernel ceph

pin*_*ngu

2014 11-19

18
推荐指数

1
解决办法

3090
查看次数

Ceph 和 NFS 在共享文件存储方面有什么区别？

有人可以向我解释一下，与 NFS 相比，Ceph 是什么？

从共享文件存储的角度来看？使用 Ceph 代替 NFS 的附加价值是什么？

nfs nfs4 ceph

Bas*_*l A

lucky-day

11
推荐指数

1
解决办法

5992
查看次数

Ceph 是否可以将硬件 RAID 阵列 (LUN) 作为 OSD 驱动器处理？

我对 Ceph 很陌生，并试图找出 Ceph 是否支持硬件级别的raid HBA。

可惜找不到任何资料。我发现，建议对 OSD 使用普通磁盘。但这将要求推到了 PCIe、磁盘接口到高带宽和 CPU 要求非常高。

硬件 RAID 控制器已经解决了这些要求，它们根据设置提供高冗余，而不会占用我的 PCIe、CPU 或任何其他资源。

所以我希望的设置是拥有本地 RAID 控制器，无论我需要什么 RAID 级别，它都可以在控制器级别（Raid 5、raid 6）处理我的磁盘冗余。除了 RAID LUN 之外，我还想使用 Ceph 在以下对象之间进行更高级别的复制：主机、机箱、机架、行、数据中心或 CRUSH 中可能或可计划的任何内容

在该设置中有任何经验吗？
这是推荐的设置吗？
有关此硬件 RAID 集成的任何深入文档？

raid redundancy hardware-raid ceph

cil*_*lap

2021 06-15

9
推荐指数

1
解决办法

4527
查看次数

CEPH 的原始空间使用情况

我无法理解 ceph 原始空间的使用情况。

我在 7 个服务器上有 14 个 HDD（14 个 OSD），每个 HDD 3TB ~ 总共 42 TB 原始空间。

ceph -s 
     osdmap e4055: 14 osds: 14 up, 14 in
      pgmap v8073416: 1920 pgs, 6 pools, 16777 GB data, 4196 kobjects
            33702 GB used, 5371 GB / 39074 GB avail

Run Code Online (Sandbox Code Playgroud)

我创建了 4 个块设备，每个 5 TB：

df -h
 /dev/rbd1       5.0T  2.7T  2.4T  54% /mnt/part1
/dev/rbd2       5.0T  2.7T  2.4T  53% /mnt/part2
/dev/rbd3       5.0T  2.6T  2.5T  52% /mnt/part3
/dev/rbd4       5.0T  2.9T  2.2T  57% /mnt/part4

Run Code Online (Sandbox Code Playgroud)

df …

xfs centos ceph

vir*_*ism

2015 04-18

8
推荐指数

2
解决办法

5289
查看次数

禁用 HDD 写入缓存时性能更好？（HGST Ultrastar 7K6000 和媒体缓存行为）

请注意。长读。
在我计划在我的 Ceph 设置中使用的 Hitachi Ultrastar 7K6000 驱动器的初始性能测试期间，我注意到一个奇怪的事情：禁用磁盘写入缓存时写入性能更好。

我使用fio：

fio --filename=/dev/sda --direct=1 --sync=1 --rw=randwrite --bs=4k --numjobs=1 --iodepth=1 --runtime=60 --time_based --group_reporting --name=4krandw

Run Code Online (Sandbox Code Playgroud)

当写缓存被禁用时：

hdparm -W 0 /dev/sda 

4krandw: (groupid=0, jobs=1): err= 0: pid=6368: Thu Jun 22 07:36:44 2017
write: io=63548KB, bw=1059.9KB/s, iops=264, runt= 60003msec
clat (usec): min=473, max=101906, avg=3768.57, stdev=11923.0

Run Code Online (Sandbox Code Playgroud)

启用写缓存时：

hdparm -W 1 /dev/sda

4krandw: (groupid=0, jobs=1): err= 0: pid=6396: Thu Jun 22 07:39:14 2017
write: io=23264KB, bw=397005B/s, iops=96, runt= 60005msec
clat (msec): min=1, max=48, avg=10.30, stdev= 4.12 …

Run Code Online (Sandbox Code Playgroud)

performance storage cache iops ceph

J''*_*J''

2017 07-10

6
推荐指数

1
解决办法

3411
查看次数

我如何测量复杂的 I/O 活动以开发实际的基准测试？

我需要从我的服务服务器中检索一些指标来对另一个存储解决方案进行基准测试。基准程序提供了各种选项（我选择了 FIO，http: //freecode.com/projects/fio ）。我可以很容易地用它设置 io 模式。但我不知道如何检索真实服务的指标以尽可能真实地设置基准变量。

例如，我需要设置，

随机/顺序读/写比文件大小和每个的分布
文件大小（如果可能的话，每个大小的随机/顺序读/写比率）
深度
随机访问重访率（可能会影响随机访问性能）

我目前正在测试 ceph( http://ceph.com/ )，至少上述指标似乎对我的研究中的那种存储产生了重大影响。我如何检索这些值？

collectcl( http://collectl.sourceforge.net/ ) 看起来不错。但除了读/写比率之外，无法弄清楚。除了那些东西我想不通。我真的很想知道其他人是如何决定这些基准变量的。

提前致谢。

linux storage io ceph benchmark

jin*_*wan

2014 04-25

5
推荐指数

1
解决办法

701
查看次数

为什么 GlusterFS 这么慢？

我们已经设置了一对 GlusterFS 服务器镜像。无需特殊调整，无论官方 RHEL6 RPM 中的 GlusterFS-3.5.1 “开箱即用”什么，这就是我们所拥有的。

集群可以工作，但性能非常糟糕。例如，firefox-31.0.source.tar.bz2通过本地主机上的 GlusterFS 提取一个大的 tarball () 需要长达 44 分钟的时间。直接在同一磁盘上提取相同的文件所需时间不到 2。删除创建的树也存在类似的差异（通过 gluster 需要 10 分钟）...

当然，可以预见的是，需要进行镜像，等等，使用网络的文件系统会更慢——但是慢30 倍？简单地复制大文件速度很快——所以这不是我们所缺乏的带宽。当解压正在运行时，我看到glusterfs（客户端）和glusterfsd（服务器）进程都消耗了大量的 CPU（每个进程大约 10%），但系统仍然保持大约 70% 的空闲状态——两个 gluster 进程都消耗了大量的 CPU。比提取 bzip2 和 tar 更忙......他们在做什么？

我可以做一些调整来显着提高性能吗？或者我应该尝试ceph（或gfarm？）而不是 gluster ？或者对于大量的小文件来说它们都很糟糕？谢谢你！

performance-tuning distributed-filesystems glusterfs ceph glusterfs-3.5

Mik*_* T.

2016 08-30

5
推荐指数

1
解决办法

4162
查看次数

ceph 复制是基于节点还是基于磁盘？

我目前正在评估 xenserver 的存储系统。因为数据复制在失败的情况下很重要，所以我有一个关于 ceph 复制的问题。

据我所知，节点中的每个磁盘本身都是一个 osd（磁盘不在任何 raid 配置中）。ceph 复制算法是否知道 2 个 osd 位于同一节点上的事实，因此不会复制这些 osd 上的数据？

最小示例：2 个节点，每个节点有 2 个磁盘。由于非突袭设置，每个磁盘都是一个 osd -> 4 个 osd。节点A：OSD1、OSD2；节点 B：OSD3、OSD4。我将复制数量设置为 2 并将一个对象保存到 ceph 中。对象是否会被保存和复制，以便在节点故障的情况下可以完全访问数据？

谢谢您的回答

replication ceph

lau*_*bed

lucky-day

4
推荐指数

1
解决办法

3722
查看次数

ceph 存储的高可用性？

ceph有高可用吗，我这样配置2个节点

  cluster:

    id:     07df97db-f315-4c78-9d2a-ab85007a1856
    health: HEALTH_WARN
            Reduced data availability: 32 pgs inactive
            Degraded data redundancy: 374/590 objects degraded (63.390%), 18 pgs degraded, 32 pgs undersized

  services:
    mon: 2 daemons, quorum ceph1,ceph2
    mgr: ceph1(active), standbys: ceph2
    mds: mycephfs-1/1/1 up  {0=ceph1=up:active}, 1 up:standby
    osd: 2 osds: 1 up, 1 in

  data:
    pools:   6 pools, 96 pgs
    objects: 216  objects, 12 MiB
    usage:   75 MiB used, 945 MiB / 1020 MiB avail
    pgs:     33.333% pgs not active
             374/590 objects degraded (63.390%)
             64 active+clean …

Run Code Online (Sandbox Code Playgroud)

high-availability ceph

Lê *_*uân

lucky-day

4
推荐指数

1
解决办法

1792
查看次数