标签: mapr

“Hadoop 发行版”是什么意思

我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语,例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop(及其回显系统)与“Hadoop 发行版”的关系是什么?

是否像Java虚拟机规范(文档)和Oracle JVM、IBM JVM(文档的工作实现)?但我们从 Apache 获得 zip,它们实际上是逻辑实现的。

所以我有点困惑。

hadoop software-distribution cloudera mapr biginsights

4
推荐指数
1
解决办法
986
查看次数

在MapReduce Hadoop中排序

我在Hadoop MapReduce中几乎没有基本问题.

  1. 假设是否执行了100个映射器和零减速器.它会生成100个文件吗?所有人都排序?对所有映射器输出进行排序?
  2. 减速器的输入是Key - > Values.对于每个键,所有值都已排序?
  3. 假设是否执行了50个减速器.它会生成50个文件吗?所有单个文件都已排序?所有减速机输出都排序?

在MapReduce中是否有保证排序的地方?

hadoop mapreduce cloudera mapr

3
推荐指数
1
解决办法
1348
查看次数

HBase是否每行施加最大尺寸?

高级别问题:

HBase是否强制每行的最大大小,这对于所有分布都是通用的(因此不是实现的工件),无论是存储字节还是以单元数量表示

如果是这样:

  • 限制是多少?

  • 限制存在的原因是什么?

  • 记录的限制在哪里?

如果不:

  • 文档(或测试结果)是否可用于证明HBase处理超过2GB行的能力?4GB?

  • 是否存在实际或"最佳实践"最大值,HBase API用户应保持行大小以避免严重的性能下降?如果是这样,如果丢弃该指导,会出现什么样的性能下降?

在任一情况下:

  • 答案是否取决于相关的HBase版本?

背景:

hbase mapr

3
推荐指数
1
解决办法
4245
查看次数

配置Druid以在端口5181上连接到Zookeeper

我正在运行一个MapR集群,想要用德鲁伊做一些时间序列分析.MapR使用Zookeeper的非标准端口(端口5181而不是传统端口2181).

当我启动Druid协调器服务时,它会尝试连接传统的Zookeeper端口并失败:

2015-03-03T17:46:49,614 INFO [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181.
2015-03-03T17:46:49,617 WARN [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
    java.net.ConnectException: Connection refused
Run Code Online (Sandbox Code Playgroud)

德鲁伊的文件显示,该动物园管理员主机可以通过设置druid.zk.service.host在财产config/_common/common.runtime.properties.它没有指定编辑Zookeeper端口的属性.

德鲁伊的Zookeeper端口是否可配置?或者如果在MapR中使用德鲁伊,是否有必要运行其他Zookeeper服务?

mapr druid apache-zookeeper

2
推荐指数
1
解决办法
1713
查看次数

典型的Hadoop架构和MapR架构之间的区别

我知道这Hadoop是基于主/从架构

HDFS与工程NameNodesDataNodes

MapReduce与工程jobtrackersTasktrackers

但是我找不到所有这些服务MapR,我发现它有自己的架构和自己的服务

我有点困惑,请问任何人请告诉我使用Hadoop和使用MapR之间有什么区别!

hadoop mapr

2
推荐指数
1
解决办法
3699
查看次数

无法导入 SparkContext

我正在 CentOS 上工作,我已经设置$SPARK_HOME并添加了binin的路径$PATH

我可以pyspark从任何地方逃跑。

但是当我尝试创建python文件并使用此语句时;

from pyspark import SparkConf, SparkContext
Run Code Online (Sandbox Code Playgroud)

它抛出以下错误

python pysparktask.py
    Traceback (most recent call last):
    File "pysparktask.py", line 1, in <module>
      from pyspark import SparkConf, SparkContext
    ModuleNotFoundError: No module named 'pyspark'
Run Code Online (Sandbox Code Playgroud)

我尝试使用 再次安装它pip

pip install pyspark
Run Code Online (Sandbox Code Playgroud)

它也给出了这个错误。

找不到满足 pyspark 要求的版本(来自版本:)没有找到 pyspark 的匹配发行版

编辑

根据答案,我更新了代码。

错误是

Traceback (most recent call last):
  File "pysparktask.py", line 6, in <module>
    from pyspark import SparkConf, SparkContext
  File "/opt/mapr/spark/spark-2.0.1/python/pyspark/__init__.py", line 44, …
Run Code Online (Sandbox Code Playgroud)

python mapr apache-spark pyspark

2
推荐指数
1
解决办法
1万
查看次数

Platfora和Datameer的分发

我有兴趣安装Platfora和Datameer分析工具.我怀疑在这些工具的文档中,我们看到现有的Hadoop发行版,他们给出了兼容性列表,包括CDH,HDP和MapR.但我想在现有的普通Hadoop中安装它们.即我已经通过逐个下载Apache Hadoop组件并准备好群集来安装Hadoop.

这些工具会在这种情况下起作用吗?

analytics hadoop mapr hortonworks-data-platform cloudera-cdh

0
推荐指数
1
解决办法
625
查看次数

gcloud auth登录的验证码来自哪里?

我目前就读于MapR Academy的免费在线学习计划ADM200.我正在使用2015年11月25日修订的"设置虚拟群集"说明.我正在使用Windows 8.1计算机,并且正在尝试在Google云端平台上设置虚拟群集.在第5页,此处显示的说明:

  1. 安装完成后,通过在提示符下键入exit并重新启动Cygwin重新启动Cygwin终端.在终端提示符处输入以下命令以进行身份​​验证:
gcloud auth login --no-launch-browser
Run Code Online (Sandbox Code Playgroud)

该命令将生成一个链接,然后等待您输入验证码.按照说明进行身份验证.

我尝试了我的项目ID: hopeful-buckeye-123456 (#1234567890123)使用整个事物,只是在括号之外,只有部分内部.每次,我都收到了来自gcloud命令的错误消息:

错误:Web身份验证存在问题.错误:(gcloud auth login)无效授权

此外,说明似乎并未解决选择和支付Google服务器实例的需要,然后继续实验室.我的免费试用期仅为60天.我希望听到那些"去过那里,做过那件事"的人.

verification mapr gcloud

0
推荐指数
1
解决办法
3072
查看次数