标签: apache-apex

Apache Spark和Apache Apex有什么区别？

Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么？

问题

从数据科学的角度来看,它与Spark的不同之处是什么？
Apache Apex是否提供Spark MLlib等功能？如果我们必须在Apache apex上构建可扩展的ML模型,该怎么做以及使用哪种语言？
数据科学家是否必须学习Java来构建可扩展的ML模型？它有像pyspark这样的python API吗？
Apache Apex可以与Spark集成吗？我们可以在Apex之上使用Spark MLlib构建ML模型吗？

machine-learning stream-processing apache-spark pyspark apache-apex

16
推荐指数

1
解决办法

7868
查看次数

Apache Apex与Apache Storm有何不同？

Apache Apex看起来与Apache Storm类似.

用户在两个平台上构建应用程序/拓扑作为定向非循环图(DAG).Apex使用运营商/流,Storm使用spouts/streams/bolt.
它们都是实时处理数据而不是批处理.
两者似乎都具有高吞吐量和低延迟

因此,一目了然,两者看起来都很相似,但我并没有完全发挥作用.有人可以解释一下有哪些主要区别？换句话说,我何时应该使用一个而不是另一个？

stream-processing bigdata apache-storm apache-apex

9
推荐指数

1
解决办法

1240
查看次数

Apache Apex vs Apache Flink

由于两者都是流式框架,一次处理事件,这两种技术/流式框架之间的核心架构差异是什么？

还有哪些特定用例,哪一个比另一个更合适？

stream-processing apache-flink apache-apex

6
推荐指数

1
解决办法

2085
查看次数

用于将文件从本地文件系统移动到HDFS的Hadoop工具

我正在做一个关于将数据从共享网络驱动器导入HDFS的方法的POC。数据将位于共享驱动器上的不同文件夹中，并且每个文件夹将对应于HDFS上的不同目录。我看了一些执行此操作的流行工具，但其中大多数用于移动小数据而不是整个文件。这些是我发现的工具，还有其他工具吗？

Apache Flume：如果只有少数生产服务器在生产数据，并且不需要实时写出数据，那么仅通过Web HDFS或NFS将数据移至HDFS也是有意义的。写入的数据量相对较少-每几个小时几个GB的文件不会损害HDFS。在这种情况下，规划，配置和部署Flume可能不值得。实际上，Flume旨在实时推送事件，数据流是连续的，并且其数量也相当大。[safari在线上的水烟书和水烟食谱]

Apache Kafka：生产者－消费者模型：消息将保留在磁盘上并在群集内复制，以防止数据丢失。每个代理都可以处理TB级的消息，而不会影响性能。

Amazon Kinesis：像Flume这样的实时数据的付费版本

WEB HDFS：提交HTTP PUT请求，而不会自动跟随重定向，也不会发送文件数据。使用“位置”标头中的URL提交另一个HTTP PUT请求以及要写入的文件数据。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

开源项目： https ：//github.com/alexholmes/hdfs-file-slurper

我的要求很简单：

轮询文件目录，如果有文件，请将其复制到HDFS并将文件移至“已处理”目录。
我需要对多个目录执行此操作

hadoop hdfs apache-apex

5
推荐指数

1
解决办法

4833
查看次数

Apache Apex中的运营商生命周期是什么？

从users@apex.incubator.apache.org重新发布

何时调用运算符的构造函数？文档在运算符的生命周期中说过一次,但我想知道"生命周期"的定义是否跨越顶点应用程序的启动/停止/崩溃(由于编码错误)？

作者

2
推荐指数

1
解决办法

141
查看次数

标签统计

apache-apex ×5

stream-processing ×3

apache-flink ×1

apache-spark ×1

apache-storm ×1

hdfs ×1

machine-learning ×1