标签: large-data

处理选择框中的大量数据

嗨我正在使用jQuery并从我的一个mySQL表中检索"items".我在该表中有大约20,000个"项目",它将在我的表单中用作搜索参数.所以基本上他们可以搜索包含该"项目"的"购买".

现在我需要它们能够从下拉列表中选择"项目",但是用20,000个"项目"填充下拉列表需要很长时间.我想知道是否有任何jQuery插件支持自动完成下拉框的分页.

这样,用户可以开始键入过滤列表的前几个字母,或者只需单击箭头并查看可能有20个项目,最后一个是"请单击以获取更多信息".

我对处理大数据集和使用所述数据集填充HTML选择框的任何其他建议持开放态度.

此搜索页面上可能有多个选择框,用户可以选择"项目"或"客户"或这些行中的任何内容,然后单击"搜索".

jquery html-select large-data

10
推荐指数
1
解决办法
3万
查看次数

Java中大型数据集的基于文件的合并排序

给定不适合内存的大型数据集,是否有任何库或api在Java中执行排序?实现可能类似于linux实用程序排序.

java sorting large-data

10
推荐指数
1
解决办法
5628
查看次数

高性能多层标签过滤

我有一个庞大的艺术家,专辑和曲目数据库.这些项目中的每一个都可以通过胶合表(track_attributes,album_attributes,artist_attributes)分配一个或多个标签.每种物品类型都有数千(甚至数十万)个标签.

我正在尝试完成两项任务,而且我很难让查询执行得令人满意.

任务1)获取具有任何给定标签(如果提供)的所有曲目,这些曲目由具有任何给定标签(如果提供)的专辑上具有任何给定标签(如果提供)的艺术家提供.任何一组标签可能都不存在(即只有一个曲目标签处于活动状态,没有艺术家或专辑标签)

变化:结果也可以由艺术家或专辑而不是曲目呈现

任务2)获取应用于前一个过滤器结果的标签列表,以及每个给定标签的轨道数.

我所追求的是一些方法的一般指导.我已经尝试过临时表,内部联接,IN(),到目前为止我所做的所有努力都会导致响应缓慢.我在这里看到的结果的一个很好的例子可以在这里看到:http://www.yachtworld.com/core/listing/advancedSearch.jsp,除了他们只有一层标签,我正在处理三个.

表结构:

Table: attribute_tag_groups
   Column   |          Type               |   
------------+-----------------------------+
 id         | integer                     |
 name       | character varying(255)      | 
 type       | enum (track, album, artist) | 

Table: attribute_tags
   Column                       |          Type               |   
--------------------------------+-----------------------------+
 id                             | integer                     |
 attribute_tag_group_id         | integer                     |
 name                           | character varying(255)      | 

Table: track_attribute_tags
   Column   |          Type               |   
------------+-----------------------------+
 track_id   | integer                     |
 tag_id     | integer                     | 

Table: artist_attribute_tags
   Column   |          Type               |   
------------+-----------------------------+
 artist_id …
Run Code Online (Sandbox Code Playgroud)

php sql performance join large-data

10
推荐指数
1
解决办法
503
查看次数

基于列值拆分大型csv文本文件

我有CSV文件,其中有多列已排序.例如,我可能有这样的行:

19980102,,PLXS,10032,Q,A,,,15.12500,15.00000,15.12500,2
19980105,,PLXS,10032,Q,A,,,14.93750,14.75000,14.93750,2
19980106,,PLXS,10032,Q,A,,,14.56250,14.56250,14.87500,2
20111222,,PCP,63830,N,A,,,164.07001,164.09000,164.12000,1
20111223,,PCP,63830,N,A,,,164.53000,164.53000,164.55000,1
20111227,,PCP,63830,N,A,,,165.69000,165.61000,165.64000,1
Run Code Online (Sandbox Code Playgroud)

我想根据第3列分割文件,例如将PLXS和PCP条目放入他们自己的文件PLXS.csv和PCP.csv中.由于文件恰好是预先排序的,因此所有PLXS条目都在PCP条目之前,依此类推.

我通常最终在C++中做这样的事情,因为那是我最熟悉的语言,但在这种情况下,我的输入CSV文件是几千兆字节,太大而无法加载到C++的内存中.

有人可以说明如何实现这一目标吗?Perl/Python/php/bash解决方案都可以,他们只需要能够处理大文件而无需过多的内存使用.

csv text split large-data

10
推荐指数
2
解决办法
1万
查看次数

在MySQL中使用内连接表上的索引

我有2亿条记录的表Foo和1000条记录的表格栏,它们是多对一连接的.列Foo.someTime和Bar.someField有索引.同样在Bar 900中,记录的某些字段为1,100,其中某些字段为2.

(1)此查询立即执行:

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id where f.someTime     between '2008-08-14' and '2018-08-14' and b.someField = 1 limit 20;
...
20 rows in set (0.00 sec)
Run Code Online (Sandbox Code Playgroud)

(2)这个只需要永远(唯一的变化是b.someField = 2):

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id where f.someTime     between '2008-08-14' and '2018-08-14' and b.someField = 2 limit 20;
Run Code Online (Sandbox Code Playgroud)

(3)但是如果我在某个时间删除where子句而不是立即执行:

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id …
Run Code Online (Sandbox Code Playgroud)

mysql indexing inner-join large-data

10
推荐指数
1
解决办法
2万
查看次数

删除非常大的数据集上的重复项

我正在研究一个包含大约1600万行和85列的13.9 GB csv文件.我知道可能有几十万行是重复的.我运行此代码来删除它们

import pandas

concatDf=pandas.read_csv("C:\\OUT\\Concat EPC3.csv")
nodupl=concatDf.drop_duplicates()
nodupl.to_csv("C:\\OUT\\Concat EPC3- NoDupl.csv",index=0)
low_memory=False  
Run Code Online (Sandbox Code Playgroud)

然而,这让我陷入了MemoryError.我的公羊是16克,不能再高了.是否有一种更有效的方法来删除重复项,如果没有我不得不将csv文件分解为更小的文件?

python duplicates large-data

10
推荐指数
2
解决办法
1302
查看次数

将Excel表数据传输到SQL 2008R2的最快方法

有没有人知道在没有使用外部实用程序(即bcp)的情况下从Excel表格(VBA阵列)获取数据的最快方法到SQL 2008上的表格?请记住,我的数据集通常是6500-15000行,大约150-250列; 我最终在自动VBA批处理脚本中传输了大约20-150个.

我已经尝试了几种从Excel表(VBA)到SQL 2008获取大量数据的方法.我列出了以下内容:

方法1.将表传递到VBA阵列并发送到存储过程(ADO) - 发送到SQL是缓慢的

方法2.创建断开连接的RecordSet加载它,然后同步. - 发送到非常慢的SQL

方法3.将表放入VBA数组,循环遍历数组并连接(使用分隔符),然后发送到存储过程. - 发送到SQL SLOW,但比方法1或2更快.

方法4.将表放入VBA数组,循环遍历数组并连接(使用分隔符),然后将每行放置ADO recordset .addnew命令. - 发送到SQL非常快(比方法1-3快约20倍),但现在我需要使用单独的过程拆分数据,这将增加大量的等待时间.

方法5.将表放入VBA数组,序列化为XML,作为VARCHAR发送到存储过程并在存储过程中指定XML. - 发送到SQL INCREDIBLY SLOW(比方法1或2慢大约100倍)

我错过了什么?

import excel vba large-data sql-server-2008

9
推荐指数
1
解决办法
2万
查看次数

Python plot使用matplotlib的大矩阵

我试图绘制一个2000列和200000行的矩阵.当矩阵很小时,我可以测试绘图和测试输出矩阵图

matshow(my_matrix)
show()
Run Code Online (Sandbox Code Playgroud)

但是,当更多行添加到my_matrix时,图形变得非常窄,因为行数多于列,因此在放大时会失去精度.我可以使矩阵图形可滚动吗?如果没有,我怎么能在不失去精度的情况下可视化这样的矩阵?

我还尝试调用savefig('filename',dpi = 300)以保存图像而不会损失太多精度,但是当矩阵很大时它会抛出MemoryError.非常感谢!

python matplotlib matrix out-of-memory large-data

9
推荐指数
1
解决办法
2571
查看次数

大稀疏矩阵到矩阵误差

我想应用鼠标包,但我无法将大型稀疏矩阵转换为矩阵.

library(Matrix)
library(mice)

i=c(2,9,6:10^7)
j=c(2,9,6:10^7)
x=7*(1:7^7)

write.csv(a,"a.csv")
c=read.csv("a.csv")
w=sparseMatrix(i=c[,1],j=c[,2],x=c[,3])

w=as.matrix(w)
Run Code Online (Sandbox Code Playgroud)
Error in asMethod(object) : 
      Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105
Run Code Online (Sandbox Code Playgroud)

r matrix sparse-matrix large-data r-mice

9
推荐指数
0
解决办法
3027
查看次数

将Panda Dataframes写入块中的csv文件

我有一组大数据文件(1M行x 20列).但是,我只对5个左右的数据列感兴趣.

我想我可以通过仅使用感兴趣的列创建这些文件的副本来使我更容易,所以我有较小的文件可用于后期处理.

我的计划是将文件读入数据帧,然后写入csv文件.

我一直在研究将大块的数据文件读入数据帧.

但是,我还没有找到任何关于如何将数据写入块中的csv文件的内容.

这是我现在正在尝试的,但这不附加csv文件:

with open(os.path.join(folder, filename), 'r') as src:
    df = pd.read_csv(src, sep='\t',skiprows=(0,1,2),header=(0), chunksize=1000)
    for chunk in df:
        chunk.to_csv(os.path.join(folder, new_folder,
                                  "new_file_" + filename), 
                                  columns = [['TIME','STUFF']])
Run Code Online (Sandbox Code Playgroud)

python large-data dataframe export-to-csv pandas

9
推荐指数
2
解决办法
2万
查看次数