我是 hadoop 新手。我最近阅读了 Apache Hadoop、Pig、Hive、HBase 的基础知识。然后我遇到了“Hadoop 发行版”这个术语,例子有 Cloudera、MAPR、HortonWorks。那么 Apache Hadoop(及其回显系统)与“Hadoop 发行版”的关系是什么?
是否像Java虚拟机规范(文档)和Oracle JVM、IBM JVM(文档的工作实现)?但我们从 Apache 获得 zip,它们实际上是逻辑实现的。
所以我有点困惑。
我在Hadoop MapReduce中几乎没有基本问题.
在MapReduce中是否有保证排序的地方?
HBase是否强制每行的最大大小,这对于所有分布都是通用的(因此不是实现的工件),无论是存储字节还是以单元数量表示?
如果是这样:
限制是多少?
限制存在的原因是什么?
记录的限制在哪里?
如果不:
文档(或测试结果)是否可用于证明HBase处理超过2GB行的能力?4GB?
是否存在实际或"最佳实践"最大值,HBase API用户应保持行大小以避免严重的性能下降?如果是这样,如果丢弃该指导,会出现什么样的性能下降?
在任一情况下:
我正在运行一个MapR集群,想要用德鲁伊做一些时间序列分析.MapR使用Zookeeper的非标准端口(端口5181而不是传统端口2181).
当我启动Druid协调器服务时,它会尝试连接传统的Zookeeper端口并失败:
2015-03-03T17:46:49,614 INFO [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181.
2015-03-03T17:46:49,617 WARN [main-SendThread(localhost:2181)] org.apache.zookeeper.ClientCnxn - Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
Run Code Online (Sandbox Code Playgroud)
在德鲁伊的文件显示,该动物园管理员主机可以通过设置druid.zk.service.host在财产config/_common/common.runtime.properties.它没有指定编辑Zookeeper端口的属性.
德鲁伊的Zookeeper端口是否可配置?或者如果在MapR中使用德鲁伊,是否有必要运行其他Zookeeper服务?
我知道这Hadoop是基于主/从架构
HDFS与工程NameNodes和DataNodes
并MapReduce与工程jobtrackers和Tasktrackers
但是我找不到所有这些服务MapR,我发现它有自己的架构和自己的服务
我有点困惑,请问任何人请告诉我使用Hadoop和使用MapR之间有什么区别!
我正在 CentOS 上工作,我已经设置$SPARK_HOME并添加了binin的路径$PATH。
我可以pyspark从任何地方逃跑。
但是当我尝试创建python文件并使用此语句时;
from pyspark import SparkConf, SparkContext
Run Code Online (Sandbox Code Playgroud)
它抛出以下错误
python pysparktask.py
Traceback (most recent call last):
File "pysparktask.py", line 1, in <module>
from pyspark import SparkConf, SparkContext
ModuleNotFoundError: No module named 'pyspark'
Run Code Online (Sandbox Code Playgroud)
我尝试使用 再次安装它pip。
pip install pyspark
Run Code Online (Sandbox Code Playgroud)
它也给出了这个错误。
找不到满足 pyspark 要求的版本(来自版本:)没有找到 pyspark 的匹配发行版
编辑
根据答案,我更新了代码。
错误是
Traceback (most recent call last):
File "pysparktask.py", line 6, in <module>
from pyspark import SparkConf, SparkContext
File "/opt/mapr/spark/spark-2.0.1/python/pyspark/__init__.py", line 44, …Run Code Online (Sandbox Code Playgroud) 我有兴趣安装Platfora和Datameer分析工具.我怀疑在这些工具的文档中,我们看到现有的Hadoop发行版,他们给出了兼容性列表,包括CDH,HDP和MapR.但我想在现有的普通Hadoop中安装它们.即我已经通过逐个下载Apache Hadoop组件并准备好群集来安装Hadoop.
这些工具会在这种情况下起作用吗?
analytics hadoop mapr hortonworks-data-platform cloudera-cdh
我目前就读于MapR Academy的免费在线学习计划ADM200.我正在使用2015年11月25日修订的"设置虚拟群集"说明.我正在使用Windows 8.1计算机,并且正在尝试在Google云端平台上设置虚拟群集.在第5页,此处显示的说明:
- 安装完成后,通过在提示符下键入exit并重新启动Cygwin重新启动Cygwin终端.在终端提示符处输入以下命令以进行身份验证:
gcloud auth login --no-launch-browser
Run Code Online (Sandbox Code Playgroud)
该命令将生成一个链接,然后等待您输入验证码.按照说明进行身份验证.
我尝试了我的项目ID: hopeful-buckeye-123456 (#1234567890123)使用整个事物,只是在括号之外,只有部分内部.每次,我都收到了来自gcloud命令的错误消息:
错误:Web身份验证存在问题.错误:(gcloud auth login)无效授权
此外,说明似乎并未解决选择和支付Google服务器实例的需要,然后继续实验室.我的免费试用期仅为60天.我希望听到那些"去过那里,做过那件事"的人.
mapr ×8
hadoop ×4
cloudera ×2
analytics ×1
apache-spark ×1
biginsights ×1
cloudera-cdh ×1
druid ×1
gcloud ×1
hbase ×1
mapreduce ×1
pyspark ×1
python ×1
verification ×1