标签: apache-apex

Apache Spark和Apache Apex有什么区别?

Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么?

问题

  1. 从数据科学的角度来看,它与Spark的不同之处是什么?
  2. Apache Apex是否提供Spark MLlib等功能?如果我们必须在Apache apex上构建可扩展的ML模型,该怎么做以及使用哪种语言?
  3. 数据科学家是否必须学习Java来构建可扩展的ML模型?它有像pyspark这样的python API吗?
  4. Apache Apex可以与Spark集成吗?我们可以在Apex之上使用Spark MLlib构建ML模型吗?

machine-learning stream-processing apache-spark pyspark apache-apex

16
推荐指数
1
解决办法
7868
查看次数

Apache Apex与Apache Storm有何不同?

Apache Apex看起来与Apache Storm类似.

  • 用户在两个平台上构建应用程序/拓扑作为定向非循环图(DAG).Apex使用运营商/流,Storm使用spouts/streams/bolt.
  • 它们都是实时处理数据而不是批处理.
  • 两者似乎都具有高吞吐量和低延迟

因此,一目了然,两者看起来都很相似,但我并没有完全发挥作用.有人可以解释一下有哪些主要区别?换句话说,我何时应该使用一个而不是另一个?

stream-processing bigdata apache-storm apache-apex

9
推荐指数
1
解决办法
1240
查看次数

Apache Apex vs Apache Flink

由于两者都是流式框架,一次处理事件,这两种技术/流式框架之间的核心架构差异是什么?

还有哪些特定用例,哪一个比另一个更合适?

stream-processing apache-flink apache-apex

6
推荐指数
1
解决办法
2085
查看次数

用于将文件从本地文件系统移动到HDFS的Hadoop工具

我正在做一个关于将数据从共享网络驱动器导入HDFS的方法的POC。数据将位于共享驱动器上的不同文件夹中,并且每个文件夹将对应于HDFS上的不同目录。我看了一些执行此操作的流行工具,但其中大多数用于移动小数据而不是整个文件。这些是我发现的工具,还有其他工具吗?

Apache Flume:如果只有少数生产服务器在生产数据,并且不需要实时写出数据,那么仅通过Web HDFS或NFS将数据移至HDFS也是有意义的。写入的数据量相对较少-每几个小时几个GB的文件不会损害HDFS。在这种情况下,规划,配置和部署Flume可能不值得。实际上,Flume旨在实时推送事件,数据流是连续的,并且其数量也相当大。[safari在线上的水烟书和水烟食谱]

Apache Kafka:生产者-消费者模型:消息将保留在磁盘上并在群集内复制,以防止数据丢失。每个代理都可以处理TB级的消息,而不会影响性能。

Amazon Kinesis:像Flume这样的实时数据的付费版本

WEB HDFS:提交HTTP PUT请求,而不会自动跟随重定向,也不会发送文件数据。使用“位置”标头中的URL提交另一个HTTP PUT请求以及要写入的文件数据。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

开源项目: https //github.com/alexholmes/hdfs-file-slurper

我的要求很简单:

  • 轮询文件目录,如果有文件,请将其复制到HDFS并将文件移至“已处理”目录。
  • 我需要对多个目录执行此操作

hadoop hdfs apache-apex

5
推荐指数
1
解决办法
4833
查看次数

Apache Apex中的运营商生命周期是什么?

从users@apex.incubator.apache.org重新发布

何时调用运算符的构造函数?文档在运算符的生命周期中说过一次,但我想知道"生命周期"的定义是否跨越顶点应用程序的启动/停止/崩溃(由于编码错误)?

apache-apex

2
推荐指数
1
解决办法
141
查看次数