我用cloudera测试了hadoop和mapreduce,我发现它非常酷,我认为我是最新的相关BigData解决方案.但是几天前,我发现了这个:https: //spark.incubator.apache.org/
一个"闪电快速集群计算系统",能够在Hadoop集群的顶部工作,并且显然能够破坏mapreduce.我看到它在RAM中比mapreduce更有效.我认为当你必须进行集群计算来克服单个机器上的I/O问题时,mapreduce仍然是相关的.但是,由于Spark可以完成mapreduce所做的工作,并且可能在几个操作上更有效率,它不是MapReduce的结束吗?或者MapReduce可以做些什么,或者MapReduce在特定环境中比Spark更有效?
我使用的是LocalExecutor,我的dag有3个任务,其中任务(C)依赖于任务(A).任务(B)和任务(A)可以并行运行,如下所示
A - >Ç
乙
所以任务(A)失败了,但任务(B)运行正常.任务(C)尚未运行,因为任务(A)失败.
我的问题是我如何单独运行任务(A),因此任务(A)运行一旦任务(A)完成,并且Airflow UI将它们标记为成功.
我想开始学习大数据技术.我希望将来在这个领域工作.有没有人知道好书开始学习它?Hadoop,HBase.
初学者 - 中级 - 高级 -
提前致谢
我们正在开始一个基于大数据的分析项目,我们正在考虑采用scala(类型安全堆栈).我想知道各种scala API /项目可用于做hadoop,map reduce程序.
我正在调查Google Dataflow和Apache Spark,以确定哪个更适合我们的bigdata分析业务需求.
我发现有Spark SQL和MLlib火花平台上做结构化数据查询和机器学习.
我想知道Google Dataflow平台中是否有相应的解决方案?
distributed-computing bigdata apache-spark google-cloud-dataflow google-cloud-ml
调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.
collect()如果在数据帧上调用,它的行为方式会相同吗?方法怎么
样select()?
它是否也像collect()在数据帧上调用一样工作?
我正在努力寻找为大文件创建可扩展存储的最佳解决方案.文件大小可以从1-2兆字节到500-600千兆字节不等.
我找到了一些关于Hadoop和它的HDFS的信息,但它看起来有点复杂,因为我不需要任何Map/Reduce作业和许多其他功能.现在我正在考虑使用MongoDB和它的GridFS作为文件存储解决方案.
现在的问题是:
谢谢.
正如维基百科所述
数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可理解的结构以供进一步使用
这与大数据有什么关系?如果我说Hadoop以并行方式进行数据挖掘,这是否正确?
我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:
df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)
不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用
df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)
一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件
for chunk in df:
print chunk
Run Code Online (Sandbox Code Playgroud)
我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块
plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)
我希望我的问题不那么令人困惑
当使用spark-1.6.2和pyspark时,我看到了这个:
您可以看到活动任务是否为负数(总任务与已完成任务的差异).
这个错误的来源是什么?
节点我有很多执行者.但是,似乎有一项任务似乎已经空闲(我没有看到任何进展),而另一项相同的任务正常完成.
这也是相关的:邮件我可以确认正在创建许多任务,因为我使用的是1k或2k执行程序.
我得到的错误有点不同:
16/08/15 20:03:38 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one of the SparkListeners is too slow and cannot keep up with the rate at which tasks are being started by the scheduler.
16/08/15 20:07:18 WARN TaskSetManager: Lost task 20652.0 in stage 4.0 (TID 116652, myfoo.com): FetchFailed(BlockManagerId(61, mybar.com, 7337), shuffleId=0, mapId=328, reduceId=20652, message=
org.apache.spark.shuffle.FetchFailedException: java.util.concurrent.TimeoutException: Timeout waiting for …Run Code Online (Sandbox Code Playgroud)