标签: data-stream

当我们需要存储"最后n个项目"时,列表是否比矢量更好?

有很多问题表明应该总是使用向量,但在我看来,列表对于场景更好,我们需要存储"最后n个项目"

例如,假设我们需要存储最后看到的5个项目:迭代0:

3,24,51,62,37,
Run Code Online (Sandbox Code Playgroud)

然后在每次迭代时,删除索引0处的项目,并在末尾添加新项目:

迭代1:

24,51,62,37,8
Run Code Online (Sandbox Code Playgroud)

迭代2:

51,62,37,8,12
Run Code Online (Sandbox Code Playgroud)

似乎对于这个用例,对于向量,复杂度将是O(n),因为我们必须复制n个项目,但是在列表中,它应该是O(1),因为我们总是只是砍掉了头部,并在每次迭代时添加到尾部.

我的理解是否正确?这是std :: list的实际行为吗?

c++ buffering fifo data-stream c++11

43
推荐指数
4
解决办法
4899
查看次数

使用Node.js流式传输数据

我想知道是否可以使用Node.js将数据从服务器流式传输到客户端.我想向Node.js发布一个AJAX请求,然后保持连接打开并不断地将数据流传输到客户端.客户端将收到此流并持续更新页面.

更新:

作为这个答案的更新- 我无法让这个工作.在response.write你打电话之前不发送close.我已经设置了一个示例程序,用于实现此目的:

Node.js的:

var sys = require('sys'), 
http = require('http');
http.createServer(function (req, res) {
    res.writeHead(200, {'Content-Type': 'text/html'});
    var currentTime = new Date();
    setInterval(function(){
        res.write(
            currentTime.getHours()
            + ':' + 
            currentTime.getMinutes()
            + ':' +
            currentTime.getSeconds()
        );
    },1000);
}).listen(8000);
Run Code Online (Sandbox Code Playgroud)

HTML:

<html>
    <head>
        <title>Testnode</title>
    </head>

    <body>
        <!-- This fields needs to be updated -->
        Server time: <span id="time">&nbsp;</span>

        <!-- import jQuery from google -->
        <script type="text/javascript" src="http://ajax.googleapis.com/ajax/libs/jquery/1.4.2/jquery.min.js"></script>

        <!-- import jQuery -->
        <script type="text/javascript">
            $(document).ready(function(){
            // I …
Run Code Online (Sandbox Code Playgroud)

html ajax jquery node.js data-stream

42
推荐指数
3
解决办法
3万
查看次数

FIFO /队列缓冲区专门用于字节流

是否有任何.NET数据结构/类组合允许将字节数据附加到缓冲区的末尾,但是所有的查找和读取都是从一开始,在我读取时缩短缓冲区?

MemoryStream级似乎做的一部分,但我需要保持对阅读和写作不同的地点,它本身它是阅读后不会自动开始丢弃数据.

答案已经回复了这个问题,基本上我正在尝试做但我更喜欢我可以在同一个过程的不同组件中进行异步I/O,就像普通管道甚至是网络流(我需要先过滤/处理数据).

.net c# .net-2.0 data-stream

15
推荐指数
1
解决办法
1万
查看次数

Scala中的disk-persisted-lazy-cacheable-List™

我需要在Scala中有一个非常非常长的对(X,Y)列表.如此之大,它不适合内存(但很适合在磁盘上).

  • 所有更新操作都是缺点(头部追加).
  • 所有读取访问都从头部开始,并有序地遍历列表,直到找到预定的对.
  • 缓存会很棒,因为大多数读访问都会反复保留相同的数据.

所以,这基本上是一个"磁盘持久 - 懒惰 - 可缓存列表"™

在我开始推出自己的产品之前,有关如何获得一个的想法吗?


附录:是.. mongodb,或任何其他非可嵌入资源,是一种矫枉过正.如果您对此特定用例感兴趣,请参阅Timeline 此处的课程.基本上,我有一个非常非常大的时间线(几个月内数百万对),虽然我的比赛只需要触及最后几个小时.

scala data-stream data-structures

15
推荐指数
1
解决办法
1000
查看次数

spark ssc.textFileStream不从目录中流式传输任何文件

我正在尝试使用eclipse(使用maven conf)和2个worker来执行下面的代码,每个都有2个核心或者也尝试过spark-submit.

public class StreamingWorkCount implements Serializable {

    public static void main(String[] args) {
        Logger.getLogger("org.apache.spark").setLevel(Level.WARN);
        JavaStreamingContext jssc = new JavaStreamingContext(
                "spark://192.168.1.19:7077", "JavaWordCount",
                new Duration(1000));
        JavaDStream<String> trainingData = jssc.textFileStream(
                "/home/bdi-user/kaushal-drive/spark/data/training").cache();
        trainingData.foreach(new Function<JavaRDD<String>, Void>() {

            public Void call(JavaRDD<String> rdd) throws Exception {
                List<String> output = rdd.collect();
                System.out.println("Sentences Collected from files " + output);
                return null;
            }
        });

        trainingData.print();
        jssc.start();
        jssc.awaitTermination();
    }
}
Run Code Online (Sandbox Code Playgroud)

并记录该代码

15/01/22 21:57:13 INFO FileInputDStream: New files at time 1421944033000 ms:

15/01/22 21:57:13 INFO JobScheduler: Added jobs for time 1421944033000 …
Run Code Online (Sandbox Code Playgroud)

filesystems data-stream apache-spark spark-streaming

13
推荐指数
2
解决办法
1万
查看次数

基于Java的传感器数据收集库

我正在寻找一个可嵌入的Java库,它适用于以通用方式收集传感器数据的实时流.我计划使用它来开发一个"集线器"应用程序,用于报告在基于JVM的服务器上运行的多个不同的传感器流(也将使用Clojure).

需要关键的事情:

  • 各种常见传感器类型/ API的接口.我很高兴能够自己构建我需要的东西,但是如果开箱即用的标准东西会更好.
  • 适用于"软实时"使用,即相当低的延迟和低开销.
  • 能够在运行时监视和管理流,收集统计信息等.
  • 在合理许可的许可下开源,以便我可以将它与其他代码集成(Apache,EPL,BSD,LGPL都很好)
  • 一个相当活跃的社区/开发者生态系统

是否有适合您可以推荐的此配置文件的内容?

java real-time sensor data-stream

12
推荐指数
1
解决办法
5790
查看次数

kinesis 数据流中的分片是什么

kinesis 数据流和分区键中的分片是什么。我阅读了 aws 文档,但我不明白。有人可以用简单的术语解释一下吗?

amazon-web-services data-stream amazon-kinesis

10
推荐指数
1
解决办法
5755
查看次数

Streams 和 Firehose 的用例是什么?

我正在开发一个可以读取和分析支付交易日志的应用程序。我知道我会根据我的要求使用 Kinesis Analytics,它从 Data Streams 和 Firehose 获取输入。但是我在决定我的系统应该使用哪种输入法时遇到了麻烦。我的要求是:

  1. 它可以容忍延迟,但数据不应该丢失数据。
  2. 必须记录 DynamoDB 或 S3 存储桶中的所有错误。

哪个输入流适合我的用例?

amazon-web-services data-stream amazon-kinesis aws-lambda aws-serverless

9
推荐指数
3
解决办法
2991
查看次数

使用通过Flow API实现的处理器转换数据流

我本来打算通过社区#DOC-1006738从Oracle相关的并发概念Flow.PublisherFlow.Subscriber.在那里可以找到使用具有这两行代码的处理器转换数据流示例代码,这让我有点困惑.

//Create Processor and Subscriber  
MyFilterProcessor<String, String> filterProcessor = 
                                      new MyFilterProcessor<>(s -> s.equals("x")); 
Run Code Online (Sandbox Code Playgroud)

问题1. MyFilterProcessor如何在<String, String>这里输入?

对于我最初的想法,这些可能已经<String, Boolean>取而代之,但那将无视下一行中订户定义的进一步定义: -

MyTransformProcessor<String, Integer> transformProcessor = 
                              new MyTransformProcessor<>(s -> Integer.parseInt(s));  
Run Code Online (Sandbox Code Playgroud)

另外请注意,除非我明确地将上述内容强制转换为(正确)

MyTransformProcessor<String, Integer>(s -> Integer.parseInt(s))
Run Code Online (Sandbox Code Playgroud)

我在parseInt阅读时遇到错误,无法应用Object.

- 为什么我需要在这里明确地投射RHS?-


虽然代码主要出现在共享链接中,但我使用的有用的构造函数定义是

public class MyTransformProcessor<T, R> extends SubmissionPublisher<R> implements Flow.Processor<T, R> {       
    private Function function;
    MyTransformProcessor(Function<? super T, ? extends R> function) { …
Run Code Online (Sandbox Code Playgroud)

java concurrency data-stream java-8 java-9

8
推荐指数
1
解决办法
304
查看次数

用于动态增长/流数据的哈希算法?

是否有任何算法可以从已知的哈希摘要中继续哈希?例如,客户端将一大块文件上传到ServerA,我可以得到md5上传内容的总和,然后客户端将剩余的文件块上传到ServerB,我可以将md5内部状态转移到ServerB并完成散列吗?

基于我多年前在comp.lang.python上发现的md5 有一个很酷的黑魔法黑客,但是它ctypes用于特定版本的md5.so或者_md5.dll,所以它不是用于不同python解释器版本或其他编程语言的可移植代码,除了md5模块自2.5以来在python标准库中已弃用,因此我需要找到更通用的解决方案.

更重要的是,散列的状态是否可以存储在十六进制摘要本身中?(因此,我可以继续使用现有的哈希摘要散列数据流,而不是内部黑客攻击.

任何想法都表示赞赏.提前致谢 :)

python hash md5 data-stream

7
推荐指数
1
解决办法
2410
查看次数