标签: raid

为什么RAID 1被认为不适合备份?

有很多文章将RAID(以及RAID 1)作为糟糕的备份解决方案:

示例1 示例2 示例3

我理解所有RAID驱动器都可能出现故障,或者病毒可以删除所有硬盘驱动器上的所有文件的论点,但我不知道如何手动执行RAID 1的操作(将所有文件复制到外部驱动器)任何真正的差异.如果房屋烧毁,外部驱动器上的所有文件也将丢失.如果您的计算机感染了病毒,它很可能也会删除外部驱动器上的文件.如果所有RAID驱动器几乎同时发生故障,那么什么阻止外部驱动器几乎同时发生故障?

有人可以向我解释一下

backup raid hard-drive

18
推荐指数
3
解决办法
5万
查看次数

优化对磁盘的大量写入

我有一个C应用程序(VStudio 2010,win7 64位)在具有双xeon芯片的机器上运行,意味着12个物理核心和24个逻辑核心,以及192 gig的ram.编辑:操作系统是win7(即Windows 7,64位).

该应用程序有24个线程(每个线程都有自己的逻辑核心)进行计算并填充大规模C结构的不同部分.当所有线程都完成(并且线程完全平衡以便它们同时完成)时,结构大约为60千兆字节.

(我可以控制硬件设置,因此我将使用运行RAID 0的6个2tb驱动器,这意味着写入时的物理限制大约是平均顺序写入速度的6倍,或大约2千兆克/秒.)

将此更新到磁盘的最有效方法是什么?显然,i/o时间会使计算时间相形见绌.根据我对这个主题的研究,看起来像write()(而不是fwrite())是要走的路.但是,在设置缓冲区大小等方面,我可以在软件方面进行哪些其他优化?mmap会更有效吗?

c io raid mmap fwrite

7
推荐指数
2
解决办法
1941
查看次数

如果OS硬盘在没有导出ZFS的情况下死机,我可以恢复ZFS池吗?

不幸的是我的主OS硬盘已经死了 我有一个配置超过3个驱动器的4TB ZFS池,如下所示:

  1. 120GB硬盘 - Ubuntu 10.12.ZFS池是从这个hdd设置的.
  2. 1TB硬盘 - 池的一部分
  3. 1TB硬盘 - 池的一部分
  4. 2TB硬盘 - 池的一部分

主HDD无法恢复.

如果我将这3个硬盘插入新机器,ZFS是否足够聪明地识别现有池?我已经有了一个新硬盘,我将再次安装Ubuntu.

简单的zfs导入是否足够?如果我需要重建池,我可以维护所有数据吗?正如您所知,我根本不是ZFS专家,但我真的希望ZFS能够适应这种情况......

这里的答案是否涵盖了我所有的担忧?

raid zfs

7
推荐指数
1
解决办法
1万
查看次数

获取Windows上的卷大小

我正在编写一个库来提取有关Windows系统(XP或更高版本)上的物理磁盘,分区和卷的信息.

我正在努力获得音量.以下是我所知道的方法以及每个方法失败的原因:

奇怪的是,来自FSCTL_GET_VOLUME_BITMAP和WMI CIM_LogicalDisk.Size属性的集群数量一致,并且两者都比来自的值小4096字节IOCTL_DISK_GET_LENGTH_INFO.

获得容量的正确方法是什么?由于所有其他查询在没有管理员访问权限的情况下工作,我也在寻找最少权限的解决方案.

winapi raid disk-partitioning

7
推荐指数
1
解决办法
3075
查看次数

为什么不建议将RAID用于Hadoop HDFS设置?

各种网站(如Hortonworks)建议不要为HDFS设置配置RAID主要是因为两个原因:

  1. 速度限制为较慢的磁盘(JBOD表现更好).
  2. 可靠性

建议在NameNode上使用RAID.

但是在每个DataNode存储磁盘上实现RAID呢?

raid hadoop distributed-system hdfs

7
推荐指数
1
解决办法
1万
查看次数

大量读取期间 kafka 磁盘 hault 写入并导致 kafka 生产者中的“队列已满”错误

我们有 6 个具有 256GB RAM、24c/48T 的 kafka 代理,它们托管在 raid10 中配置的 20 个 1.8TB SAS 10K rpm 磁盘。

有两个火花流应用程序

  • 每 10 分钟开始他们的批次
  • 一旦他们开始,他们的第一份工作就是阅读同一个 kafka 主题。
  • 该主题有 200 个分区,均匀分布在 6 个代理上(每个代理上有 33 个分区)。
  • 流媒体应用程序使用 kafka 客户端 0.8.2.1 从 kafka 消费

有 21 个注入器实例以 6K 事件/秒的速率连续写入该主题。他们使用 librdkafka poroducer 来向 kafka 生成事件。

当流媒体应用程序醒来时,他们的第一份工作是阅读主题。一旦这样做,kafka 磁盘中的 %util 将在 30 秒到 60 秒内变为 90-100%,同时所有注入器实例都从它们的 kafka 生产者那里得到“队列已满”错误。这是生产者配置:

  • queue.buffering.max.kbytes:2097151
  • 逗留时间:0.5

在此处输入图片说明

从该图中看不到,但是在 util% 高的时候,有一段时间写入为 0,我们假设在这些时间注入器的生产者的队列已满,因此抛出“队列已满”错误。

值得一提的是,我们在kafka机器中使用deadline IO调度器,它优先考虑读取操作。

关于如何释放写的压力,我们有几个想法:

  • 减少不必要的 iops - 将 kafka 磁盘配置从 raid10 更改为非raid(“jbod”)
  • 传播阅读 - 使 Spark …

raid apache-kafka spark-streaming sched-deadline

7
推荐指数
0
解决办法
184
查看次数

提高高速文件复制的写入速度?

我一直在努力寻找编写文件复制例程的最快方法,将大文件复制到RAID 5硬件上.

平均文件大小约为2 GB.

有2个窗口框(都运行win2k3).第一个框是源,大文件位于何处.第二个盒子有一个RAID 5存储.

http://blogs.technet.com/askperf/archive/2007/05/08/slow-large-file-copy-issues.aspx

以上链接清楚地解释了为什么Windows复制,robocopy和其他常见的复制实用程序在写入性能方面受到影响.因此,我编写了一个C/C++程序,它使用带有NO_BUFFERING&WRITE_THROUGHflags的CreateFile,ReadFile和WriteFile API .该程序模拟ESEUTIL.exe,从某种意义上说,它使用2个线程,一个用于读取,一个用于写入.读取器线程从源读取256 KB并填充缓冲区.一旦填充了16个这样的256 KB块,写入器线程就会将缓冲区中的内容写入目标文件.如您所见,编写器线程在一次写入中写入8MB的数据.该程序分配32个这样的8MB块...因此,写入和读取可以并行发生.可以在上面的链接中找到ESEUtil.exe的详细信息.注意:我在使用时负责数据对齐问题NO_BUFFERING.

我使用像ATTO这样的台式标记实用程序,发现我们的RAID 5硬件在写入8MB数据块时的写入速度为每秒44MB.每分钟大约2.57 GB.

但我的程序每分钟只能达到1.4 GB.

任何人都可以帮我确定问题是什么?是否有更快的API的其他说CreateFile,ReadFile,WriteFile可用?

c++ windows raid copy

6
推荐指数
2
解决办法
9043
查看次数

cassandra复制或突袭

对于传统的RDBMS,我们在大多数情况下习惯使用RAID10,但如果使用cassandra RF = 2,那么我们确实只有一个副本作为备份,那么在这种情况下为什么不使用RAID10或为什么使用RAID10.

我认为这将减少cassandra复制的开销.

此外,在RAID10中,如果硬盘驱动器出现故障,那么整个节点将继续工作,但如果使用复制,则一个硬盘驱动器故障会导致整个节点出现故障?

虽然我认为使用RAID10会在每次写入时产生开销,但是当SSTABLE已满时会进行刷新,因此不会一直感觉到它.

raid cassandra

6
推荐指数
1
解决办法
1110
查看次数

当组件设备可能包含ext2文件系统时脚本化mdadm

我想使用mdadm编写m1.large EC2实例上的两个短暂存储设备的条带化脚本(显然amis并不总是包含设备信息,所以我不能在数组启动后创建一个新的ami).

问题是,EC2实例上的临时存储通常预先格式化了文件系统,导致mdadm说:

mdadm: /dev/sdb appears to contain an ext2fs file system
    size=440366080K  mtime=Mon Jan  2 20:32:06 2012
mdadm: /dev/sdc appears to contain an ext2fs file system
    size=440366080K  mtime=Wed Dec 31 19:00:00 1969
Continue creating array? 
Run Code Online (Sandbox Code Playgroud)

等待输入.对于非交互式情况(例如fsck -y),我确定有一种方法可以自动为mdadm中的这些类型的提示回答"是",但我似乎无法弄明白(它不是--force).我知道我可以使用dd将设备清零,但这似乎是一个相当大锤的解决方案,我确信很容易完成.

linux scripting raid amazon-ec2

6
推荐指数
1
解决办法
5185
查看次数

hadoop中的JBOD是什么类型的?和COW with hadoop?

hadoop的新手,只设置了3个debian服务器集群进行练习.

我正在研究hadoop的最佳实践并遇到过:JBOD没有RAID文件系统:ext3,ext4,xfs - 没有你用zfs和btrfs看到的那些花哨的COW东西

所以我提出这些问题......


我读到JBOD的地方比hadoop中的RAID要好,而且最好的文件系统是xfs,ext3和ext4.除了完全有意义的文件系统之外,为什么那些是最好的...你如何实现这个JBOD?你会看到我的混乱,如果你自己搜索谷歌,JBOD暗示一个线性附属物或只是一堆磁盘的组合,有点像一个逻辑卷,至少这是一些人如何解释它,但hadoop似乎想要一个JBOD没有结合.没有身体扩展...

  • 问题1)hadoop世界中的每个人对JBOD意味着什么,你是如何实现的?
  • 问题2)将每个磁盘安装到不同的目录是否一样简单?
  • 问题3)这是否意味着hadoop在JBOD上运行得最好,每个磁盘都安装在不同的目录上?
  • 问题4)然后你只是将hadoop指向那些data.dirs?

  • 问题5)我看到JBODS有两种方式,要么是每个磁盘进入单独的安装,要么是线性连续的磁盘,这可以做到mdadm - 线性模式,或者lvm我敢打赌也可以这样做,所以我看不到大的处理那个......如果是这样的话,可以使用mdadm --linear或lvm,因为JBOD人员所指的是这个磁盘的连续性,那么这是"JBOD"或线性连接磁盘的最佳方式Hadoop的?


这是偏离主题的,但有人可以验证这是否也是正确的?使用cow,写入时复制的文件系统,比如zfs和btrfs,只会减慢hadoop的速度,但不仅仅是因为hadoop是牛的实现.

  • 问题6)为什么COW和像RAID这样的东西浪费在hadoop上?我看到它好像你的系统崩溃并且你使用if恢复它的重要性,当你恢复系统时,对hdfs进行了如此多的更改它可能只是认为该机器有故障而且它会更好从头开始重新加入它(把它作为一个全新的datanode)......或者hadoop系统将如何看待旧的datanode?我的猜测是它不会认为它的旧的或新的甚至是datanode,它只会把它看作垃圾...... Idk ......

  • 问题7)如果hadoop看到一个从集群上掉下来的数据节点,然后datanode重新上线,数据稍微老一点,会发生什么?数据的年龄有多大?这个话题怎么样?


提出问题1 THRU 4

  • 我刚刚意识到我的问题很简单,但我很难解释它我必须把它分成4个问题,我仍然没有得到我正在寻找的答案,听起来像是非常聪明的人,所以我必须重新提出不同的问题..

  • 在纸面上,我可以很容易地或用绘图......我会再次尝试用词.

  • 如果对我在JBOD问题中提出的问题感到困惑......

  • **只是想知道每个人在hadoop世界中指的是什么样的JBOD都是**

  • 在正常的世界中,JBOD与hadoop的定义不同,我想知道如何在jbods(sda + sdb + sdc + sdd)的concat上实现hadoop的最佳方法,或者只留下磁盘(sda,sdb,sdc) ,SDD)

  • 我认为下面的图形表示解释了我最好的问题

(JBOD方法1)

  • 普通世界:jbod是磁盘的连接 - 然后如果你要使用hadoop,你会将data.dir(其中hdfs virtualy sites)覆盖到这个磁盘内的目录中,所有磁盘都会显示为1 ..所以如果你的节点中有sda和sdb以及sdc作为你的数据磁盘,那么你会把它看作是某个entity1(主板的硬件或mdadm或lvm),这是sda和sdb和sdc的线性连接. .然后你将这个entity1挂载到Unix命名空间中的文件夹,如/ mnt/jbod /,然后设置hadoop在其中运行.

  • 文本摘要:如果磁盘1和磁盘2以及磁盘3分别为100gb和200gb以及300gb,则此jbod将为600gb大,并且来自此节点的hadoop将获得600gb的容量

* TEXTO-GRAPHICAL OF LINEAR CONCAT OF DISKS BEING A JBOD: * disk1 2 and 3 used for datanode for hadoop * disk1 is sda 100gb * disk2 is sdb 200gb * disk3 is sdc …

raid hadoop zfs ext3

6
推荐指数
2
解决办法
4788
查看次数