标签: mapr

“Hadoop 发行版”是什么意思

我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语，例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop（及其回显系统）与“Hadoop 发行版”的关系是什么？

是否像Java虚拟机规范（文档）和Oracle JVM、IBM JVM（文档的工作实现）？但我们从 Apache 获得 zip，它们实际上是逻辑实现的。

所以我有点困惑。

hadoop software-distribution cloudera mapr biginsights

Kau*_*ele

2016 02-20

4
推荐指数

1
解决办法

986
查看次数

在MapReduce Hadoop中排序

我在Hadoop MapReduce中几乎没有基本问题.

假设是否执行了100个映射器和零减速器.它会生成100个文件吗？所有人都排序？对所有映射器输出进行排序？
减速器的输入是Key - > Values.对于每个键,所有值都已排序？
假设是否执行了50个减速器.它会生成50个文件吗？所有单个文件都已排序？所有减速机输出都排序？

在MapReduce中是否有保证排序的地方？

hadoop mapreduce cloudera mapr

Nag*_*ran

2015 07-16

3
推荐指数

1
解决办法

1348
查看次数

HBase是否每行施加最大尺寸？

高级别问题:

HBase是否强制每行的最大大小,这对于所有分布都是通用的(因此不是实现的工件),无论是存储字节还是以单元数量表示？

如果是这样:

限制是多少？
限制存在的原因是什么？
记录的限制在哪里？

如果不:

文档(或测试结果)是否可用于证明HBase处理超过2GB行的能力？4GB？
是否存在实际或"最佳实践"最大值,HBase API用户应保持行大小以避免严重的性能下降？如果是这样,如果丢弃该指导,会出现什么样的性能下降？

在任一情况下:

答案是否取决于相关的HBase版本？

背景:

HBase API的至少一个实现似乎确实施加了限制; MapR Tables使用MapR专有的MapR-FS作为表的底层存储层,似乎强加了每行2GB的硬限制和一个默认为32MB的可配置软限制.其他流行的HBase API实现是否也有这样的限制？
这从HBase的提交者托德Lipcon在2011 Quora的响应表明在细胞数方面无有限制.但是,它也表明"负载平衡和分配的单位是区域,并且不会跨区域划分一行".在一个区域内存在行的要求是对行大小施加硬限制,还是实际限制,过去性能下降会变得严重？

hbase mapr

sum*_*tsu

lucky-day

3
推荐指数

1
解决办法

4245
查看次数

配置Druid以在端口5181上连接到Zookeeper

我正在运行一个MapR集群,想要用德鲁伊做一些时间序列分析.MapR使用Zookeeper的非标准端口(端口5181而不是传统端口2181).

当我启动Druid协调器服务时,它会尝试连接传统的Zookeeper端口并失败:

2015-03-03T17:46:49,614 INFO [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181.
2015-03-03T17:46:49,617 WARN [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
    java.net.ConnectException: Connection refused

Run Code Online (Sandbox Code Playgroud)

在德鲁伊的文件显示,该动物园管理员主机可以通过设置druid.zk.service.host在财产config/_common/common.runtime.properties.它没有指定编辑Zookeeper端口的属性.

德鲁伊的Zookeeper端口是否可配置？或者如果在MapR中使用德鲁伊,是否有必要运行其他Zookeeper服务？

mapr druid apache-zookeeper

Ale*_*ord

lucky-day

2
推荐指数

1
解决办法

1713
查看次数

典型的Hadoop架构和MapR架构之间的区别

我知道这Hadoop是基于主/从架构

HDFS与工程NameNodes和DataNodes

并MapReduce与工程jobtrackers和Tasktrackers

但是我找不到所有这些服务MapR,我发现它有自己的架构和自己的服务

我有点困惑,请问任何人请告诉我使用Hadoop和使用MapR之间有什么区别!

hadoop mapr

Yos*_*pil

2016 08-18

2
推荐指数

1
解决办法

3699
查看次数

无法导入 SparkContext

我正在 CentOS 上工作，我已经设置$SPARK_HOME并添加了binin的路径$PATH。

我可以pyspark从任何地方逃跑。

但是当我尝试创建python文件并使用此语句时；

from pyspark import SparkConf, SparkContext

Run Code Online (Sandbox Code Playgroud)

它抛出以下错误

python pysparktask.py
    Traceback (most recent call last):
    File "pysparktask.py", line 1, in <module>
      from pyspark import SparkConf, SparkContext
    ModuleNotFoundError: No module named 'pyspark'

Run Code Online (Sandbox Code Playgroud)

我尝试使用再次安装它pip。

pip install pyspark

Run Code Online (Sandbox Code Playgroud)

它也给出了这个错误。

找不到满足 pyspark 要求的版本（来自版本：）没有找到 pyspark 的匹配发行版

编辑

根据答案，我更新了代码。

错误是

Traceback (most recent call last):
  File "pysparktask.py", line 6, in <module>
    from pyspark import SparkConf, SparkContext
  File "/opt/mapr/spark/spark-2.0.1/python/pyspark/__init__.py", line 44, …

Run Code Online (Sandbox Code Playgroud)

python mapr apache-spark pyspark

Mub*_*bin

2017 03-31

2
推荐指数

1
解决办法

1万
查看次数