标签: bigdata

MapReduce还是Spark?

我用cloudera测试了hadoop和mapreduce,我发现它非常酷,我认为我是最新的相关BigData解决方案.但是几天前,我发现了这个:https: //spark.incubator.apache.org/

一个"闪电快速集群计算系统",能够在Hadoop集群的顶部工作,并且显然能够破坏mapreduce.我看到它在RAM中比mapreduce更有效.我认为当你必须进行集群计算来克服单个机器上的I/O问题时,mapreduce仍然是相关的.但是,由于Spark可以完成mapreduce所做的工作,并且可能在几个操作上更有效率,它不是MapReduce的结束吗?或者MapReduce可以做些什么,或者MapReduce在特定环境中比Spark更有效?

hadoop mapreduce bigdata apache-spark

26
推荐指数
2
解决办法
2万
查看次数

如何在Airflow上重新启动失败的任务

我使用的是LocalExecutor,我的dag有3个任务,其中任务(C)依赖于任务(A).任务(B)和任务(A)可以并行运行,如下所示

A - >Ç

所以任务(A)失败了,但任务(B)运行正常.任务(C)尚未运行,因为任务(A)失败.

我的问题是我如何单独运行任务(A),因此任务(A)运行一旦任务(A)完成,并且Airflow UI将它们标记为成功.

python hadoop bigdata airflow apache-airflow

25
推荐指数
2
解决办法
1万
查看次数

书籍开始学习大数据

我想开始学习大数据技术.我希望将来在这个领域工作.有没有人知道好书开始学习它?Hadoop,HBase.

初学者 - 中级 - 高级 -

提前致谢

hadoop hbase hive pentaho bigdata

24
推荐指数
3
解决办法
4万
查看次数

sco上hadoop的选项有哪些?

我们正在开始一个基于大数据的分析项目,我们正在考虑采用scala(类型安全堆栈).我想知道各种scala API /项目可用于做hadoop,map reduce程序.

hadoop scala mapreduce jvm-languages bigdata

24
推荐指数
2
解决办法
1万
查看次数

Google Dataflow与Apache Spark

我正在调查Google DataflowApache Spark,以确定哪个更适合我们的bigdata分析业务需求.

我发现有Spark SQLMLlib火花平台上做结构化数据查询和机器学习.

我想知道Google Dataflow平台中是否有相应的解决方案?

distributed-computing bigdata apache-spark google-cloud-dataflow google-cloud-ml

24
推荐指数
2
解决办法
9066
查看次数

Spark数据帧:collect()vs select()

调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.

collect()如果在数据帧上调用,它的行为方式会相同吗?方法怎么
select()
它是否也像collect()在数据帧上调用一样工作?

bigdata dataframe apache-spark apache-spark-sql

24
推荐指数
5
解决办法
9万
查看次数

MongoDB作为文件存储

我正在努力寻找为大文件创建可扩展存储的最佳解决方案.文件大小可以从1-2兆字节到500-600千兆字节不等.

我找到了一些关于Hadoop和它的HDFS的信息,但它看起来有点复杂,因为我不需要任何Map/Reduce作业和许多其他功能.现在我正在考虑使用MongoDB和它的GridFS作为文件存储解决方案.

现在的问题是:

  1. 当我尝试同时写几个文件时,gridfs会发生什么.读/写操作会有锁定吗?(我将仅将其用作文件存储)
  2. 来自gridfs的文件是否会在ram中缓存,以及它将如何影响读写性能?
  3. 也许有一些其他解决方案可以更有效地解决我的问题?

谢谢.

storage bigdata mongodb gridfs

22
推荐指数
2
解决办法
4万
查看次数

大数据和数据挖掘有什么区别?

正如维基百科所述

数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可理解的结构以供进一步使用

这与大数据有什么关系?如果我说Hadoop以并行方式进行数据挖掘,这是否正确?

hadoop machine-learning data-mining bigdata data-science

22
推荐指数
1
解决办法
3万
查看次数

python - 使用大型csv的pandas结构(迭代和chunksize)

我有一个大的csv文件,大约600mb,有1100万行,我想创建像枢轴,直方图,图形等统计数据.显然,我只是想正常阅读它:

df = pd.read_csv('Check400_900.csv', sep='\t')
Run Code Online (Sandbox Code Playgroud)

不起作用,所以我发现迭代和chunksize在类似的帖子,所以我用

df = pd.read_csv('Check1_900.csv', sep='\t', iterator=True, chunksize=1000)
Run Code Online (Sandbox Code Playgroud)

一切都很好,我可以举例print df.get_chunk(5) 来说,只搜索整个文件

for chunk in df:
    print chunk
Run Code Online (Sandbox Code Playgroud)

我的问题是我不知道如何在整个df中使用下面这些东西,而不仅仅是一个块

plt.plot()
print df.head()
print df.describe()
print df.dtypes
customer_group3 = df.groupby('UserID')
y3 = customer_group.size()
Run Code Online (Sandbox Code Playgroud)

我希望我的问题不那么令人困惑

python csv bigdata dataframe pandas

22
推荐指数
3
解决办法
4万
查看次数

活动任务是Spark UI中的负数

当使用,我看到了这个:

在此输入图像描述

您可以看到活动任务是否为负数(总任务与已完成任务的差异).

这个错误的来源是什么?


节点我有很多执行者.但是,似乎有一项任务似乎已经空闲(我没有看到任何进展),而另一项相同的任务正常完成.


这也是相关的:邮件我可以确认正在创建许多任务,因为我使用的是1k或2k执行程序.

我得到的错误有点不同:

16/08/15 20:03:38 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one of the SparkListeners is too slow and cannot keep up with the rate at which tasks are being started by the scheduler.
16/08/15 20:07:18 WARN TaskSetManager: Lost task 20652.0 in stage 4.0 (TID 116652, myfoo.com): FetchFailed(BlockManagerId(61, mybar.com, 7337), shuffleId=0, mapId=328, reduceId=20652, message=
org.apache.spark.shuffle.FetchFailedException: java.util.concurrent.TimeoutException: Timeout waiting for …
Run Code Online (Sandbox Code Playgroud)

python hadoop distributed-computing bigdata apache-spark

21
推荐指数
2
解决办法
2361
查看次数