Maj*_*ifi 1 api twitter streaming cassandra
我知道Twissandra是使用Cassandra的示例twitter克隆,但我有兴趣看看是否有人共享Cassandra架构不是为了克隆Twitter而是用于存储通过Twitter Streaming API发送的推文?
这很大程度上取决于您在摄取数据后想要对数据进行哪种查询 - 我从您之前的问题"倾倒Twitter流媒体API推文......"中看到,您可能只想对其进行大批量处理.
如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理写入负载的1/n,并包含1/n的数据 - 使用随机分区并按推文插入一行以状态id作为行键将实现此目的.
但是,如果您想进行"为给定用户提供所有推文"等查询,则需要稍微复杂的架构,因为上面建议的架构将要求您扫描所有数据.您可以在每行插入多条推文,行键是userid,列键是tweet id,值是推文.然后你可以使用get_slice来回答该查询.
一篇好的(有点相关的)博客文章:http://blog.insidesystems.net/basic-time-series-with-cassandra
| 归档时间: |
|
| 查看次数: |
1378 次 |
| 最近记录: |