标签: large-data-volumes

大型MySQL表

对于我正在开发的Web应用程序,我需要存储大量记录.每条记录将包含一个主键和一个(short-ish)字符串值.我希望有大约100GB的存储空间,并且希望能够全部使用它.

记录将被频繁插入,删除和读取,我必须使用MySQL数据库.数据完整性并不重要,但性能却是如此.我可能会遇到哪些问题和陷阱以及哪种存储引擎最适合这项任务?

非常感谢,J

mysql database-design large-data-volumes

3
推荐指数
1
解决办法
5822
查看次数

java高效重复数据删除

假设您有一个大文本文件.每行包含一个电子邮件ID和一些其他信息(比如一些product-id).假设文件中有数百万行.您必须在数据库中加载此数据.您如何有效地重复数据删除(即消除重复)?

java large-data-volumes

3
推荐指数
1
解决办法
2910
查看次数

如何让用户轻松选择在Java Swing应用程序中分配多少内存?

我们有一个处理相对大量数据的Swing应用程序.例如,我们目前处理具有数百万行数据的CSV文件.出于性能和简单性的原因,我们只将所有数据保存在内存中.但是,不同的用户将需要处理不同数量的数据以及不同数量的RAM.在创建安装程序时,我们当然需要指定堆大小.是否有任何简单的方法允许用户指定堆而无需手动编辑配置或.bat文件?我猜不是所有的用户都会对此感到满意.

我已经看到一个例子,其中一个应用程序指定了三个不同的快捷方式,每个快捷方式都指定了不同的内存量.这可行,但我想要一个更灵活的选项.然后,用户可以选择最适合他们的那个.

java heap size large-data-volumes

3
推荐指数
1
解决办法
294
查看次数

Python - 令人难以置信的大型矩阵的最佳数据结构

我需要创建大约200万个向量,每个向量1000个插槽(每个插槽只包含一个整数).

处理这些数据的最佳数据结构是什么?可能是我高估了所涉及的处理/内存量.

我需要迭代一组文件(总共大约34.5GB)并且每次在一行上遇到200万个项目中的一个(每个对应一个向量)时更新向量.

我可以轻松地为此编写代码,但我知道它不足以处理数据量,这就是为什么我要问你专家.:)

最好的,乔治娜

python vector large-data-volumes matrix data-structures

3
推荐指数
1
解决办法
1291
查看次数

我有100万亿个元素,每个元素的大小从1字节到1万亿字节(0.909 TiB).如何存储和访问它们非常有效?

这是一个面试问题:

假设:我有100万亿个元素,每个元素的大小从1字节到1万亿字节(0.909 TiB).如何存储和访问它们非常有效?

我的想法:他们希望测试有效处理大量数据的知识.这不仅仅是一个正确答案的问题.

将它们保存为一些特殊的数据结构?

实际上我对这种开放式问题没有任何想法.

任何帮助都非常感谢.

algorithm large-data-volumes save data-structures

3
推荐指数
1
解决办法
363
查看次数

如何处理大型数据列表

我们有一个应用程序,其中,说的一部分,它需要一个时间来阅读20%巨大超出内存限制数据量.虽然我们可以增加内存限制,但我们不愿意这样做,因为它需要在大多数情况下都没有必要时进行高分配.

当我们达到这样的峰值负载时,我们正在考虑使用自定义的java.util.List实现来假脱机到磁盘,但在较轻的情况下将保留在内存中.

数据一次加载到集合中,随后迭代并处理,然后丢弃.它不需要在集合中进行排序.

有没有人对这种方法有利弊?

是否有一个开源产品提供这样的List impl?

谢谢!

更新:

  • 不是厚颜无耻,而是"巨大",我的意思是超出我们愿意分配的内存量,而不会干扰同一硬件上的其他进程.你需要什么其他细节?
  • 该应用程序本质上是一个批处理器,它从多个数据库表中加载数据并在其上执行广泛的业务逻辑.列表中的所有数据都是必需的,因为聚合操作是完成逻辑的一部分.
  • 我刚刚看到这篇文章提供了一个非常好的选择:STXXL相当于Java

java algorithm collections list large-data-volumes

2
推荐指数
1
解决办法
3831
查看次数

在WPF中快速显示大型排序列表?

我正在开发一个程序,它应该能够显示多个(最多500个项目)数据列表,这些数据需要在内容更改时使用.

本质上,我有一个带有可观察集合的viewmodel,它包含绑定到gui的可观察数据的类,它们显示在ListView中.

必须对数据进行排序,但数据也可能随时更改,每次都需要使用列表.

在没有锁定GUI的情况下显示和保持整个事物的最佳机制/隐喻是什么?我有一个使用NotifyCollectionChangedEventArgs和一些排序函数的解决方案,但它的SLOW - 我假设每次更改数据元素时它都会重新调整并重建整个GUI.

sorting wpf performance large-data-volumes

2
推荐指数
1
解决办法
1894
查看次数

处理Java EE应用程序中的大型记录

有一个表phonenumbers有两列:idnumber.有大约half a million entries在表中.数据库是MySQL.

要求是开发一个连接到该数据库的简单Java EE应用程序,允许用户通过遵循特定URL 下载所有numbercomma separated style.

如果我们得到一个巨大的所有值,String array然后在a中连接它们(在所有值之间使用逗号)String然后将其发送给用户,它听起来是一个合适的解决方案吗?

该申请不公开,将由有限的号码使用.人

java mysql jdbc large-data-volumes java-ee

2
推荐指数
1
解决办法
4427
查看次数

如何设计一个存储非常大的数据的表?

我需要在Oracle中设计一个表,它将在一天内存储2-5 TB的数据.它可以增长到200TB,记录将在超过200TB时被清除.

将它保留在OLTP中是否是可行的选择,还是需要将其转移到数据仓库DB?请在设计此表或数据库的模式时牢记建议.

另外,请告知它是否是SQL服务器,因为我可以使用任一数据库.

sql-server oracle large-data-volumes large-data

2
推荐指数
1
解决办法
952
查看次数

我们如何在matlab中处理大型矩阵(大于10000x10000)

在我的程序中,我遇到了一些大于10000x10000的矩阵.我无法转置或反转它们,如何克服这个问题?

??? Error using ==> ctranspose
Out of memory. Type HELP MEMORY for your options.
Error in ==> programname1 at 70
    B = cell2mat(C(:,:,s))'; 
Out of memory. Type HELP MEMORY for your options.
Example 1: Run the MEMORY command on a 32-bit Windows system:


    >> memory
    Maximum possible array:             677 MB (7.101e+008 bytes) *
    Memory available for all arrays:   1602 MB (1.680e+009 bytes) **
    Memory used by MATLAB:              327 MB (3.425e+008 bytes)
    Physical Memory (RAM):             3327 MB (3.489e+009 bytes)

    * …
Run Code Online (Sandbox Code Playgroud)

matlab large-data-volumes

2
推荐指数
1
解决办法
9634
查看次数