在BigTable/GFS和Cassandra术语中,SSTable的定义是什么?
基本上整个问题都在标题中.我想知道是否可以同时从多台计算机上附加到位于HDFS上的文件?类似于存储由多个进程不断产生的事件流的东西.订单并不重要.
我记得听过谷歌技术演示文稿之一,GFS支持这样的追加功能,但尝试使用HDFS进行一些有限的测试(使用常规文件追加()或使用SequenceFile)似乎不起作用.
谢谢,
我正在阅读有关GFS及其一致性模型的内容,但我未能掌握其中的一些内容.特别是,有人可以为我提供一个特定的示例场景(或解释为什么它不会发生):
问题描述:对于我们的应用程序 (RHEL 5,6),我们使用共享存储 (EVA),并且需要为节点 (2-7) 之间共享的多个 FS找到OCFS2 替代品(RHEL 6 不支持)。当前的技巧是GFS2和GlusterFS。
用法:系统接收(SFTP/SCP)并处理大小为 10-100 MB 的文件(创建、在目录中重命名、在目录之间移动、读取、删除)。
限制:以这种方式处理的数据量(创建、删除)最多为3 TB/day(max 60 MB/s)。文件系统应能够在积压期间处理单个目录中的数千个此类文件。
选择 GFS2/GlucterFS 的原因:两者都是 RedHat。尝试将 GlusterFS 与 GFS2 进行比较的原因很简单,GFS2 需要安装 RH 集群,而 GlusterFS 则不需要。问题是性能。
获得更多建议和/或找到一些比较可能确实很有帮助(我知道它们通常属于不同类型,但无论如何)。
谢谢简
像Google File System和Hadoop这样的分布式文件系统不支持随机I/O.
(它不能修改之前写过的文件.只能编写和附加.)
他们为什么设计这样的文件系统?
设计的重要优势是什么?
PS我知道Hadoop将支持修改写入的数据.
但是他们说,它的表现会非常不好.为什么?
我从Google 文件系统论文中不明白这一点
一个小文件由少量块组成,也许只有一个。如果许多客户端访问同一个文件,存储这些块的块服务器可能会成为热点。
小文件有什么区别?许多客户端访问的大文件是否同样有可能导致问题?
我想过/阅读以下内容:-
gfs ×8
hadoop ×3
filesystems ×2
hdfs ×2
bigdata ×1
bigtable ×1
cassandra ×1
comparison ×1
concurrency ×1
file-io ×1
glusterfs ×1
nosql ×1