小编Abh*_*ain的帖子

将文件夹从主机Mac OS共享到VirtualBox中的来宾Linux系统

如何在Virtual Box中的主机(Mac)和来宾操作系统(Ubuntu)之间共享文件夹?

macos virtualbox host ubuntu-12.04

58
推荐指数
1
解决办法
8万
查看次数

HDFS中的大块大小!如何使用未使用的空间?

我们都知道,与传统文件系统中的块大小相比,HDFS中的块大小相当大(64M或128M).这样做是为了减少与传输时间相比的寻道时间百分比(因此,传输速率的改进比磁盘寻道时间的改进大得多,因此设计文件系统时的目标始终是减少与要转移的数据量相比的寻求次数).但是这带来了内部碎片的另一个缺点(这就是为什么传统的文件系统块大小不是那么高并且只有几KB的量级 - 通常是4K或8K).

我正在阅读这本书 - Hadoop,权威指南,并发现这写在某个地方,一个小于HDFS块大小的文件不占用整个块,并没有占到整个块的空间,但无法理解如何?有人可以对此有所了解.

hadoop mapreduce hdfs

20
推荐指数
2
解决办法
1万
查看次数

独特约束如何影响Postgres DB中的写入性能

UNIQUE一列或一组列上指定的约束是否会以任何方式影响Postgres DB的写入性能?它内部如何运作?

我的意思是,它是否在插入新记录时执行独特的检查?如果是,它是如何做到的,它是否对数据库中已存在的重复值进行线性搜索?在这种情况下,它被认为会影响性能,即写入/插入性能更差的唯一约束更多?这是真的吗?

postgresql performance unique-constraint

18
推荐指数
1
解决办法
6856
查看次数

Yarn为现有地图带来的额外好处减少了多少?

纱线的基础设施层与原始地图缩减架构的区别在于以下方式:

在YARN中,作业跟踪器被分为两个不同的守护进程,称为Resource ManagerNode Manager(特定于节点).除了包括仅处理调度作业的调度程序而不担心任何监视或状态更新之外,资源管理器仅管理对不同作业的资源分配.内存,CPU时间,网络带宽等不同资源被放入一个称为的单元Resource Container.AppMasters在不同节点上有不同的运行,它们与许多这些资源容器通信,因此使用监视/状态详细信息更新节点管理器.

我想知道使用这种方法如何从map-reduce角度提高性能?此外,如果纱线背后的动机及其对Map-reduce的现有实施的好处有任何明确的内容,请指出我的相同内容.

hadoop mapreduce hadoop-yarn

17
推荐指数
2
解决办法
1万
查看次数

具有复合主键的表中的记录顺序是什么

在PostgreSQL中,当指定多列的组合时PRIMARY KEY,如何排序记录?

这是假设PostgreSQL按主键的顺序排序记录.可以?

另外,在PostgreSQL的情况下,主键是否自动编入索引?

sorting postgresql primary-key

17
推荐指数
1
解决办法
6362
查看次数

石英调度器如何工作?

我的问题是:石英调度程序如何工作,它与实现Runnable接口(基本上是一个线程)的普通类有什么不同,它根据指定的时间间隔唤醒并执行所需的工作?

它只是一种方便的处理方式(使用石英调度程序),比如通过XML文件指定作业配置,以及向现有调度程序轻松添加新作业,还是有更多内容?更多,我的意思是它是否进行任何类型的优化,例如它不会在整个持续时间内挂起并释放它?它是一种轮询类型的机制,线程保持轮询系统时间并查看指定的时间间隔是否已经过,或者它是否使用系统时钟进行某种注册,时钟本身通知石英调度程序?

如果上述问题需要进一步澄清,请与我们联系.

java quartz-scheduler threadpool

10
推荐指数
1
解决办法
8388
查看次数

使用服务器端加密上传到S3期间的数据完整性检查

数据完整性检查是AWS Java SDK声称它默认提供的内容,客户端可以自己计算对象校验和,并在S3客户端中将其添加为标头"Headers.CONTENT_MD5",或者如果我们将其作为null传递或者不设置它,S3客户端在内部计算客户端本身的MD5校验和,它用它来比较从对象创建响应中获得的Etag((除了创建对象的MD5)以将错误返回到在数据完整性失败的情况下客户端.请注意,在这种情况下,完整性检查发生在客户端而不是S3服务器端,这意味着仍然会成功创建对象,客户端需要清理它明确.

因此,建议使用标头(检查发生在S3端本身并提前失败)但由于TransferManager使用部件上载,客户端无法为特定部件显式设置MD5.传输管理器应该负责计算部件的MD5并设置标头,但我不会在代码中看到这种情况.

由于我们希望使用Transfer Manager进行多部分上传,因此我们需要依赖于默认情况下启用的客户端检查.但是,也有一个警告.当我们在S3中的对象上启用SSE-KMS或SSE-C时,将跳过此数据完整性检查(正如它们在代码中的一个注释中所提到的那样),在这种情况下,接收到密文的MD5来自S3,无法通过在客户端计算的MD5进行验证.

我应该使用什么来启用S3中的SSE进行数据完整性检查?

注意:请验证上述理解是否正确.

amazon-s3 data-integrity amazon-web-services aws-sdk

7
推荐指数
0
解决办法
824
查看次数

在Java中实现定期刷新的Cache

我的用例是在存储在持久数据库中的数据上维护内存缓存.

我使用数据填充UI上的条目列表/映射.在任何给定时间,UI上显示的数据应尽可能地更新(这可以通过缓存的刷新频率来完成).

常规高速缓存实现与此特定高速缓存之间的主要区别在于,它需要定期刷新所有元素,因此与LRU类型的高速缓存非常不同.

我需要在Java中实现这个实现,如果有任何现有的框架可以用来构建它们,那将是很好的.

我已经探索了Google Guava缓存库,但它更适合每个条目刷新而不是批量刷新.没有简单的API可以在整个缓存上进行刷新.

任何帮助将受到高度赞赏.

另外,如果有可能逐步做刷新,它应是伟大的,因为同时刷新整个缓存它产生唯一的限制是,如果高速缓存的大小是非常大的,那么内存堆应该ATLEAST的两倍缓存以加载新条目并用新映射替换旧映射.如果缓存是增量的,或者有一个分块刷新(刷新大小相同),那就太好了.

java caching bulkinsert bulk

6
推荐指数
1
解决办法
2万
查看次数

在Hadoop中,如何将数据位置用于除HDFS之外的文件系统?

我们知道Hadoop使用数据局部性原则来生成map-reduce作业以节省网络带宽.以下是对其工作原理的说明:

摘自:http://hadoop-gyan.blogspot.in/

Hadoop尽力在本地存在数据的节点上运行映射任务,以优化网络和节点间通信延迟.由于输入数据被分成多个部分并馈送到不同的映射任务,因此希望在单个节点上将所有馈送到该映射任务的数据都可用.因为HDFS仅保证大小等于其块大小(64M)的数据.在一个节点上,建议/提倡将分割大小等于HDFS块大小,以便map任务可以利用此数据本地化.

即使底层文件系统不是HDFS,Hadoop也能够运行map-reduce作业(即,它可以在其他文件系统上运行,例如Amazon S3).现在,在这种情况下如何计算数据位置?在HDFS的情况下,namenode具有所有块位置信息,并使用该映射器尽可能接近数据生成.但是,在其他文件系统中,没有namenode的概念.然后,Hadoop MapReduce框架(JobTracker和TaskTracker)如何在运行作业时了解数据的位置以应用数据局部性原则?

hadoop mapreduce amazon-s3 hdfs

6
推荐指数
1
解决办法
2312
查看次数

获得"设备上没有空间"约.EMR m1.large实例上的10 GB数据

当我使用m1.large作为要由作业流创建的hadoop实例的实例类型运行我的Amazon EMR作业时,我收到错误"设备上没有剩余空间".这项工作产生约.最大10 GB的数据,因为m1.large实例的容量应该是420GB*2(根据:EC2实例类型)).我很困惑,只有10GB的数据才能导致"磁盘空间已满"的消息.我知道如果我们已经完全耗尽了文件系统上允许的inode总数,也可能会产生这种错误,但这可能是数百万的大数字,我很确定我的工作不是产生那么多文件.我已经看到,当我尝试创建一个独立于m1.large类型的EC2实例时,它默认为它分配一个8GB的根卷.这可能是在EMR中配置实例的原因吗?然后,何时将大小为420GB的磁盘分配给实例?

另外,这里是"df -hi"和"mount"的输出

$ df -hi
Filesystem            Inodes   IUsed   IFree IUse% Mounted on
/dev/xvda1              640K    100K    541K   16% /
tmpfs                   932K       3    932K    1% /lib/init/rw
udev                    930K     454    929K    1% /dev
tmpfs                   932K       3    932K    1% /dev/shm
ip-10-182-182-151.ec2.internal:/mapr
                        100G     50G     50G   50% /mapr

$ mount
/dev/xvda1 on / type ext3 (rw,noatime)
tmpfs on /lib/init/rw type tmpfs (rw,nosuid,mode=0755)
proc on /proc type proc (rw,noexec,nosuid,nodev)
sysfs on /sys type sysfs (rw,noexec,nosuid,nodev)
udev on /dev type tmpfs (rw,mode=0755)
tmpfs …

hadoop diskspace amazon-ec2 amazon-web-services elastic-map-reduce

6
推荐指数
1
解决办法
4904
查看次数