小编Sha*_*baz的帖子

我处理大量的股票市场数据,数十亿行价格/报价数据,每天可以累计达到100千兆字节(尽管这些文本文件通常压缩至少一个数量级).这个数据基本上是一些数字,两个或三个短字符串和一个时间戳(通常是毫秒级).如果我必须为每一行选择一个唯一的标识符,我将不得不选择整行(因为交换可能会在同一毫秒内为同一个符号生成多个值).

我想将这些数据映射到bigtable(我包括它的衍生物)的最简单方法是按符号名称和日期(这可能会返回一个非常大的时间序列,超过百万个数据点并非闻所未闻).通过阅读他们的描述,看起来这些系统可以使用多个密钥.我还假设十进制数不是键的好选择.

其中一些系统(例如Cassandra)声称能够进行范围查询.在给定的一天,上午11:00到下午1:30之间,我是否能够有效地查询MSFT的所有值？

如果我想搜索给定日期的所有符号,并请求价格在10美元到10.25美元之间的所有符号,那么该怎么办？所以我正在搜索这些值,并希望返回键作为结果？

如果我想得到两个系列,从另一个中减去一个,并返回两次系列及其结果,我将在自己的程序中做他的逻辑怎么办？

阅读相关论文似乎表明这些系统不适合大规模时间序列系统.但是,如果谷歌地图等系统基于它们,我认为时间序列也应该有效.例如,将时间视为x轴,将价格视为y轴,将符号视为命名位置 - 突然之间看起来像bigtable应该是时间序列的理想存储(如果整个地球可以存储,检索,放大和注释,股市数据应该是微不足道的).

有些专家可以指出我正确的方向或澄清任何误解.

谢谢

finance hbase bigtable time-series cassandra

Sha*_*baz

2011 01-26

38
推荐指数

3
解决办法

2万
查看次数

Node.js for lua？

我过去几天一直在玩node.js(nodejs),这太棒了.据我所知,lua没有类似的libev和libio集成,让我们可以避免几乎任何阻塞调用,并以异步方式与网络和文件系统进行交互.

我正在慢慢地将我的java实现移植到nodejs,但是我很震惊luajit比v8 JavaScript快得多并且使用的内存要少得多!

我想在这样的环境中编写我的服务器(非常快速和响应,内存使用率非常低,非常有表现力)将极大地改善我的项目.

作为lua的新手,我只是不确定是否存在这样的事情.我会感激任何指针.

谢谢

lua libevent node.js

Sha*_*baz

2011 03-29

32
推荐指数

5
解决办法

1万
查看次数

Spark,Hadoop和Cassandra之间的关系是什么？

我的理解是Spark是Hadoop的替代品.但是,在尝试安装Spark时,安装页面会要求安装现有的Hadoop.我无法找到任何澄清这种关系的东西.

其次,Spark显然与Cassandra和Hive有良好的连接.两者都有sql风格的界面.但是,Spark有自己的sql.为什么人们会使用Cassandra/Hive而不是Spark的原生sql？假设这是一个没有现有安装的全新项目？

hadoop cassandra apache-spark apache-spark-sql

Sha*_*baz

2017 03-02

27
推荐指数

2
解决办法

1万
查看次数

java分布式缓存,用于低延迟,高可用性

我从来没有使用分布式缓存/ DHT,如memcached,jboss缓存,ehcache等.我想知道哪些,如果有的话,适合我的使用.

首先,我不是在做Web应用程序(因为大多数这些项目似乎都面向Web应用程序).我为金融交易公司编写服务器(实际上是订单管理系统).服务器本身并不复杂.他们需要接收信息(市场数据,订单,执行等)将它们发送到目的地,同时可能转换其中一些消息.

我正在研究这些产品以解决以下问题:

安全的服务器状态存储库.我宁愿将我的应用程序的逻辑构建为一堆变换器(类似于Apache Camel)并将状态存储在"安全"的位置
应该分发这个存储库:如果这些数据中的一个存储崩溃,那么应该有一个或两个存储崩溃,我应该能够无缝切换到它们
这个存储库应该很快.这里使用单位数毫秒,换句话说,使用/处理此数据的系统是自动化系统,而不是人类点击链接.该系统需要具有高吞吐量和低延迟.通过在进程外发送我的数据,我必然会降低性能,但我试图平衡绝对原始速度和绝对数据保护.
这个存储库应该是安全的.与几个在线备份相似,该系统需要将数据写入磁盘(可能多于一个磁盘).

我真的想停止编写自己的"交易服务器".我是否正确地研究诸如jboss cache,ehcache等项目？

谢谢

java caching trading dht

Sha*_*baz

2010 05-03

25
推荐指数

2
解决办法

1万
查看次数