我目前正在与Akka Stream Kafka合作与kafka互动,我很惊讶与Kafka Streams有什么不同.
我知道基于Akka的方法实现了反应性规范并处理了kafka流似乎缺乏的背压和功能.
使用kafka流比akka溪流kafka有什么好处?
scala stream-processing typesafe akka-stream apache-kafka-streams
Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么?
问题
machine-learning stream-processing apache-spark pyspark apache-apex
最近的游戏TIS-100以一个相当有趣的机器架构为中心,其中CPU由"节点"组成,它们可以与相邻的邻居通信.遗憾的是,我找不到参考手册的官方链接供公众讨论,但总的来说,每个节点都支持一个非常简单的ISA,但并行运行在同一个时钟上.每个节点有两个寄存器,一个ACC寄存器和一个BCK辅助寄存器.参考手册说CPU是为流处理而设计的.
这让我感到非常有趣且可能有用.这种架构是否在现实世界中使用?它有点像时钟处理器和FPGA之间的混合.
在实践中(非理论),小批量与实时流之间有什么区别?从理论上讲,我理解迷你批量是在给定的时间范围内批量生成的,而实时流式更像是在数据到达时做某事但是我最大的问题是为什么不使用epsilon时间框架(比如说一毫秒)或我想了解为什么一个人比其他人更有效的解决方案?
我最近遇到了一个例子,其中迷你批处理(Apache Spark)用于欺诈检测,实时流(Apache Flink)用于欺诈预防.有人还评论说小批量不是防止欺诈的有效解决方案(因为目标是防止交易发生)现在我想知道为什么这对迷你批次(Spark)不会那么有效?为什么以1毫秒的延迟运行迷你批处理无效?批处理是一种在任何地方使用的技术,包括操作系统和内核TCP/IP堆栈,其中磁盘或网络的数据确实被缓冲,那么说一个比其他更有效的令人信服的因素是什么?
data-processing stream-processing batch-processing apache-spark apache-flink
我想明白之间的差别asyncBoundary和mapAsync.从一目了然,我猜他们应该是一样的.但是,当我运行代码时,它看起来asyncBoundary比性能更快mapAsync
这是代码
implicit val system = ActorSystem("sourceDemo")
implicit val materializer = ActorMaterializer()
Source(1 to 100).mapAsync(100)(t => Future {t + 1}).mapAsync(100)(t => Future {t * 2}).map(println).to(Sink.ignore).run()
Source(1 to 100).map(_ + 1).withAttributes(Attributes.asyncBoundary).map(_ * 2).map(t => println("async boundary", t)).to(Sink.ignore).run()
Run Code Online (Sandbox Code Playgroud)
该输出:异步边界总是比mayAsync完成更快.
从描述asyncBoundary(https://doc.akka.io/docs/akka-stream-and-http-experimental/current/scala/stream-flows-and-basics.html)的文档中,我看到它正在运行在不同的CPU上,但mapAsync是使用Future的多线程.未来也是异步的.
请问有关这两个API的更多说明吗?
Apache Apex看起来与Apache Storm类似.
因此,一目了然,两者看起来都很相似,但我并没有完全发挥作用.有人可以解释一下有哪些主要区别?换句话说,我何时应该使用一个而不是另一个?
我试图找出更多关于使用HipHop运行php应用程序甚至是c ++编译的php应用程序时可以使用的硬件.我想设置一个微服务器并使用GPU来帮助CPU处理请求......
任何人?
我们的团队正在尝试建立一个预测性维护系统,其任务是查看一组事件并预测这些事件是否描绘了一组已知异常。
我们正处于设计阶段,当前的系统设计如下:
为了将一组事件分类为异常,这些事件必须在同一时间窗口内发生。例如,说有三个数据源将各自的事件推送到Kafka主题中,但是由于某些原因,数据未同步。因此,其中一个推理引擎会从每个kafka主题中提取最新条目,但是所提取数据中的相应事件并不属于同一时间窗口(例如1小时)。由于数据不同步,将导致无效的预测。
我们需要弄清楚如何确保按顺序推送来自所有三个源的数据,以便当推理引擎从多个kakfa主题请求条目(例如最后100个条目)时,每个主题中的对应条目都属于同一时间窗口?
synchronization distributed-system stream-processing apache-kafka iot
该Control.Arrow.Operations.ArrowCircuit课程适用于:
可用于解释同步电路的箭头类型。
我想知道这里的同步是什么意思。我在维基百科上查了一下,他们说的是数字电子产品。我的电子设备非常生锈,所以这里有一个问题:所谓的异步流处理器的这种实例有什么问题(如果有的话):
data StreamProcessor a b = Get (a -> StreamProcessor a b) |
Put b (StreamProcessor a b) |
Halt
instance Category StreamProcessor where
id = Get (\ x -> Put x id)
Put c bc . ab = Put c (bc . ab)
Get bbc . Put b ab = (bbc b) . ab
Get bbc . Get aab = Get $ \ a -> (Get bbc) …Run Code Online (Sandbox Code Playgroud) haskell functional-programming circuit stream-processing typeclass
我试图通过Clojure的大(> 1GB)文件中的行号抓取5行.我快到了,但看到了一些奇怪的事情,我想知道发生了什么.
到目前为止我有:
(defn multi-nth [values indices]
(map (partial nth values) indices))
(defn read-lines [file indices]
(with-open [rdr (clojure.java.io/reader file)]
(let [lines (line-seq rdr)]
(multi-nth lines indices))))
Run Code Online (Sandbox Code Playgroud)
现在,(read-lines "my-file" [0])工作没有问题.但是,传入[0 1]给我以下堆栈跟踪:
java.lang.RuntimeException: java.io.IOException: Stream closed
Util.java:165 clojure.lang.Util.runtimeException
LazySeq.java:51 clojure.lang.LazySeq.sval
LazySeq.java:60 clojure.lang.LazySeq.seq
Cons.java:39 clojure.lang.Cons.next
RT.java:769 clojure.lang.RT.nthFrom
RT.java:742 clojure.lang.RT.nth
core.clj:832 clojure.core/nth
AFn.java:163 clojure.lang.AFn.applyToHelper
AFn.java:151 clojure.lang.AFn.applyTo
core.clj:602 clojure.core/apply
core.clj:2341 clojure.core/partial[fn]
RestFn.java:408 clojure.lang.RestFn.invoke
core.clj:2430 clojure.core/map[fn]
Run Code Online (Sandbox Code Playgroud)
在我从文件中读取第二行之前,似乎关闭了流.有趣的是,如果我手动从文件中提取一行,那么(nth lines 200)该multi-nth调用适用于所有值<= 200.
知道发生了什么事吗?
akka-stream ×2
apache-apex ×2
apache-spark ×2
scala ×2
akka ×1
apache-flink ×1
apache-kafka ×1
apache-storm ×1
bigdata ×1
circuit ×1
clojure ×1
haskell ×1
iot ×1
isa ×1
linux ×1
php ×1
pyspark ×1
tis-100 ×1
typeclass ×1
typesafe ×1