随着Hadoop的和CouchDB的在博客各地和相关新闻什么是分布式容错存储(引擎),实际工作。
所以问题是哪个分布式文件系统具有以下功能集(没有特定顺序):
很高兴有:
我不是在寻找托管应用程序,而是一些可以让我在我们的每个硬件盒中使用 10GB 并在我们的网络中提供存储空间的东西,可以轻松地安装在众多主机上。
那么每个人都用什么来管理他们的机架。我们目前正在使用 MediaWiki,其中包含大量用于服务器/机架和虚拟化实例的自定义模板。
我查看了racktables.org和Rackmonkey。两者看起来都不错,但都不是我想要的。我正在寻找的功能集:
我试图尽可能简单地解释这一点,但尽可能记录下来。这不是该服务器或我当前的 ISP 独有的。多年来,我在使用不同的 ISP 并将我的服务器与不同的提供商(美国的 GoDaddy、加拿大的 iWeb 和 GloboTech)一起使用时,也遇到过同样的问题。唯一常见的是 Windows Server 操作系统(2003 和 2008 r2)。但是让我们现在只查看我当前的服务器和我当前的 ISP。
问题:
我的本地工作站和远程专用服务器之间的传输速度非常慢。我的服务器在 100 Mbps 端口上,我的本地工作站在 50 Mbps 光纤对称连接上。
症状:
在 speedtest.net 上针对美国和墨西哥的不同服务器和位置进行测试时,服务器和工作站都获得了出色的结果(非常接近它们的连接速度)。如果我从 Dropbox 下载大文件到我的服务器或我的工作站,我在单个连接上分别获得 10 MBps 和 5 MBps 的传输速率,根据 100 Mbps 和 50 Mbps 的每个连接速度,这是正确的分别。
然而,如果我将文件从我的服务器(通过 HTTP 或 FTP)传输到我的工作站,我什至没有接近我应该获得的 50 Mbps 速度(5 MBps 传输速率),但我得到了相当于 3 Mbps 的速度(300 KBps 传输速率)。
我试图理解为什么我的传输速率那么慢。我不确定如何调试它。每当我向托管服务提供商提出问题时,他们都会要求我提供 tracert 输出,并最终将其归咎于中间的某个服务器。但这似乎并不正确,如果我们考虑一下我最初所说的话:当我的服务器使用 GoDaddy、iWeb 和 GloboTech 时,我已经看到了这个确切的速度/问题,同时我自己也使用不同的 ISP不同类型的互联网服务。它确实看起来像是服务器区域某处的固定设置。
我做过的测试:
速度测试
这些是来自 speedtest.net 的速度测试,它们在我的专用服务器上针对不同的远程服务器执行,包括我位于墨西哥城的ISP 数据中心的服务器 …
windows-server-2003 windows-server-2008 internet isp network-speed
我一直在查看RFC5424以找到将结束系统日志事件的正式指定标记。
不幸的是我找不到它。因此,如果我想实现一些对某些消息做出反应的小型系统日志服务器,那么结束消息的标记是什么(是的,通常事件是一行,但我在规范中找不到它)
澄清:
我称之为事件是因为我将一条消息与一行相关联。一个事件可能是这样的
Type: foo
Source: webservers
Run Code Online (Sandbox Code Playgroud)
而给我的信息是这样的:
Type: foo Source: webservers
Run Code Online (Sandbox Code Playgroud)
http://tools.ietf.org/html/rfc5424#section-6定义:
SYSLOG-MSG = HEADER SP STRUCTURED-DATA [SP MSG]
Run Code Online (Sandbox Code Playgroud)
既不STRUCTURED-DATA也不MSG告诉我这些领域如何结束。特别MSG是被定义为MSG-ANY / MSG-UTF8几乎可以扩展到任何东西。没有什么说换行符标志着结束(或 an8或 ana就此而言)。鉴于示例消息(第 6.5 节):
这是一条有效消息,或 2 条有效消息,具体取决于您是否说HEADER元素绝不能出现在任何MSG元素中:
文字空白
<34>1 2003-10-11T22:14:15.003Z mymachine.example.com su - ID47 - <34>1 2003-10-11T22:14:15.003Z mymachine.example.com su - ID47
|
is this an end marker?
Run Code Online (Sandbox Code Playgroud)
\t 代表一个选项卡
<34>1 2003-10-11T22:14:15.003Z mymachine.example.com su - ID47 -\t<34>1 …Run Code Online (Sandbox Code Playgroud) 我记得在 Linux 中(在执行时make menuconfig)某处有一个选项,它说的是这样的:
仅当您要生成网络流量或要创建错误的网络流量时才使用此选项
不幸的是,我不记得这是在哪里,甚至不记得任何允许我实际创建此类流量的工具。
我所追求的是
在一个网络上,否则完全没问题。
目的是测试一些必须使用欧盟和美国之间的链接的应用程序的行为。我想对应用程序进行“压力测试”,它会吞下多少延迟或它可以处理多少数据包丢失。
免责声明:我知道如何运行通过使用privbind或某些iptablesREDIRECT侦听端口 <1024 的守护进程。或者更一般地说,如何使守护进程在通常不在那里运行的特权端口上可用。
这个问题本身是一个元问题。
问题:到底为什么端口 <1024 通常保留给 root 用户。从实用的角度来看,我希望能够告诉守护进程在哪个端口下进行监听,而不必关心 root 权限。我想得越多,我就越得出结论,特别是这种“安全”只是历史膨胀。
沿着sysctl -w net.ipv[46].conf.port.80=www-data(类似的东西,我希望这个想法是通过的)的 sysctl将是我真正想要的。
这样就可以保持“当前的安全级别”,但仍然允许任意用户侦听较低的端口。Linux 功能 ( CAP_NET_BIND_SERVICE) 是朝着正确方向迈出的第一步 - 至少在我看来 - 但考虑到我习惯于端口 <1024 是特殊的东西,我犹豫要完全放弃限制。我只是看不出为什么会出现这种情况的客观原因。
有人请赐教:)
注意:是的,我阅读了一些类似的标题,但我对“你不应该这样做”不太满意。必须跳过箍来让 apache 监听端口 80,它所做的只是启动root然后删除权限是不必要的(至少我认为是这样)。为什么我不能让它以普通用户身份运行并完成它的工作。这样,权限提升错误甚至不允许 root 权限。所有的特权www-data(或选择的发行版上的任何用户)
免责声明是的,我要求您为我设计一个系统:)
我的任务是设计一个系统来存储大约 10 TB/天的数据,保留时间为 180 天。
我的第一种方法是使用 GlusterFS 并使用这样的硬件设置:
系统中的单个节点:
我需要 9 个节点来获得可以保存数据的网络存储(没有复制或对本地磁盘的突袭)。
优点:
缺点:
我没有任何实际的首选方向,只有一些使用 GlusterFS 的经验,我有一个 4 TB 系统(分布式、复制、4 个节点)已经在使用 GlusterFS。
我很确定这个设置运行 Hadoop/Gluster/Netapp/EMC/Hitachi/EveryoneElse 没有太大区别,但用例是(drumroll):
ls -ltr | grep 'something' | xargs grep somethingelse
Run Code Online (Sandbox Code Playgroud)
是的,这很可怕。我试图说服人们对这些数据进行真正的分析工作,但似乎这不会发生。(好吧,没那么糟糕,但那些人会在一些“分析”系统上使用一个简单的 ssh 会话来手动转到某个目录,递归查看一些文件,然后确定数据是否正常,现在听起来更糟我写的)
我对任何想法持开放态度,我确实有人在我们公司内运行“大存储”(例如,一个备份系统有 2PB),我很乐意使用他们已经可用的任何东西。但我也必须证明他们在做正确的事情(请不要问这是一个政治问题,我相信我的数据给存储团队,我不知道为什么我必须重复工作)
考虑如何实际对数据进行分析的问题显然超出了范围。 …