Geo*_*eRF 16 machine-learning stream-processing apache-spark pyspark apache-apex
Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么?
问题
Yog*_*dra 22
将它与Spark进行比较:Apache Spark实际上是一个批处理.如果你考虑Spark流(它使用下面的spark),那么它就是微批处理.相比之下,Apache apex是一个真正的流处理.从某种意义上说,传入记录不必等待下一个记录进行处理.记录一经处理即被处理并发送到下一级处理.
目前,正在努力增加对Apache Apex与Apache Samoa,H2O等机器学习库集成的支持.请参阅https://issues.apache.org/jira/browse/SAMOA-49
目前,它支持Java,Scala.
https://www.datatorrent.com/blog/blog-writing-apache-apex-application-in-scala/
对于Python,您可以使用Jython进行尝试.但是,我自己并没有尝试过.所以,不太确定.
考虑到它们是两种不同的处理引擎,与Spark集成可能不是一个好主意.但是,Apache apex与机器学习库的集成正在进行中.
如果您有任何其他问题,可以在apache apex用户的邮件列表中发布功能请求:https://mail-archives.apache.org/mod_mbox/incubator-apex-users/