我对数据科学还很陌生,现在刚刚开始开发一个需要我分析大数据的系统(例如每个数据库中有 5 到 600 万条记录)。
从更大的角度来看:我有多个数据库,其中包含需要集成的各种数据。整合数据后,我还需要进行一些数据分析。最后,我需要将数据可视化给许多客户。
总的来说,我想知道处理大数据的当前技术/趋势是什么(即使用java框架)
答案是:取决于您的非功能性需求。您的用例对于决定使用哪种技术至关重要。让我分享我的经验之一,以澄清我的意思:
2012 年,我需要每月处理约 200 万条非结构化记录,并以每分钟约 600 个请求执行熵(信息论)和相似性算法。我们的场景由以下人员组成:
鉴于这些要求(以及许多其他要求),在使用 [Casandra][2]、[Hadoop][3]、[Voldmort][4]、[neo4j][5] 执行 PoC 以及压力、弹性测试后,可扩展性和健壮性,我们得出了当时(2012 年)的最佳解决方案:
所以,一切都取决于你的要求。没有银弹。每种情况都需要进行架构分析。
我记得当时美国宇航局使用 Hadoop 在 AWS 中每小时处理约 1TB 的数据,这是由于 [Mars project with the Curiosity][11]。
在您的情况下,我建议您注意您的要求,也许 Java 框架不是您需要的(或不仅仅是您需要的):
祝你好运!(抱歉,Stack Overflow 还不允许我添加引用链接 - 但我在这里讨论的所有内容,很容易被谷歌搜索到)。
| 归档时间: |
|
| 查看次数: |
1126 次 |
| 最近记录: |