标签: large-data

我所追求的是一些方法的一般指导.我已经尝试过临时表,内部联接,IN(),到目前为止我所做的所有努力都会导致响应缓慢.我在这里看到的结果的一个很好的例子可以在这里看到:http://www.yachtworld.com/core/listing/advancedSearch.jsp,除了他们只有一层标签,我正在处理三个.

表结构:

Table: attribute_tag_groups
   Column   |          Type               |   
------------+-----------------------------+
 id         | integer                     |
 name       | character varying(255)      | 
 type       | enum (track, album, artist) | 

Table: attribute_tags
   Column                       |          Type               |   
--------------------------------+-----------------------------+
 id                             | integer                     |
 attribute_tag_group_id         | integer                     |
 name                           | character varying(255)      | 

Table: track_attribute_tags
   Column   |          Type               |   
------------+-----------------------------+
 track_id   | integer                     |
 tag_id     | integer                     | 

Table: artist_attribute_tags
   Column   |          Type               |   
------------+-----------------------------+
 artist_id …

Run Code Online (Sandbox Code Playgroud)

php sql performance join large-data

Chr*_*ker

2017 09-23

10
推荐指数

1
解决办法

503
查看次数

基于列值拆分大型csv文本文件

我有CSV文件,其中有多列已排序.例如,我可能有这样的行:

19980102,,PLXS,10032,Q,A,,,15.12500,15.00000,15.12500,2
19980105,,PLXS,10032,Q,A,,,14.93750,14.75000,14.93750,2
19980106,,PLXS,10032,Q,A,,,14.56250,14.56250,14.87500,2
20111222,,PCP,63830,N,A,,,164.07001,164.09000,164.12000,1
20111223,,PCP,63830,N,A,,,164.53000,164.53000,164.55000,1
20111227,,PCP,63830,N,A,,,165.69000,165.61000,165.64000,1

Run Code Online (Sandbox Code Playgroud)

我想根据第3列分割文件,例如将PLXS和PCP条目放入他们自己的文件PLXS.csv和PCP.csv中.由于文件恰好是预先排序的,因此所有PLXS条目都在PCP条目之前,依此类推.

我通常最终在C++中做这样的事情,因为那是我最熟悉的语言,但在这种情况下,我的输入CSV文件是几千兆字节,太大而无法加载到C++的内存中.

有人可以说明如何实现这一目标吗？Perl/Python/php/bash解决方案都可以,他们只需要能够处理大文件而无需过多的内存使用.

csv text split large-data

use*_*171

2017 09-23

10
推荐指数

2
解决办法

1万
查看次数

在MySQL中使用内连接表上的索引

我有2亿条记录的表Foo和1000条记录的表格栏,它们是多对一连接的.列Foo.someTime和Bar.someField有索引.同样在Bar 900中,记录的某些字段为1,100,其中某些字段为2.

(1)此查询立即执行:

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id where f.someTime     between '2008-08-14' and '2018-08-14' and b.someField = 1 limit 20;
...
20 rows in set (0.00 sec)

Run Code Online (Sandbox Code Playgroud)

(2)这个只需要永远(唯一的变化是b.someField = 2):

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id where f.someTime     between '2008-08-14' and '2018-08-14' and b.someField = 2 limit 20;

Run Code Online (Sandbox Code Playgroud)

(3)但是如果我在某个时间删除where子句而不是立即执行:

mysql> select * from Foo f inner join Bar b on f.table_id = b.table_id …

Run Code Online (Sandbox Code Playgroud)

mysql indexing inner-join large-data

Yur*_*lov

2017 09-23

10
推荐指数

1
解决办法

2万
查看次数

删除非常大的数据集上的重复项

我正在研究一个包含大约1600万行和85列的13.9 GB csv文件.我知道可能有几十万行是重复的.我运行此代码来删除它们

import pandas

concatDf=pandas.read_csv("C:\\OUT\\Concat EPC3.csv")
nodupl=concatDf.drop_duplicates()
nodupl.to_csv("C:\\OUT\\Concat EPC3- NoDupl.csv",index=0)
low_memory=False

Run Code Online (Sandbox Code Playgroud)

然而,这让我陷入了MemoryError.我的公羊是16克,不能再高了.是否有一种更有效的方法来删除重复项,如果没有我不得不将csv文件分解为更小的文件？

python duplicates large-data

Vla*_*lad

2018 09-19

10
推荐指数

2
解决办法

1302
查看次数

将Excel表数据传输到SQL 2008R2的最快方法

有没有人知道在没有使用外部实用程序(即bcp)的情况下从Excel表格(VBA阵列)获取数据的最快方法到SQL 2008上的表格？请记住,我的数据集通常是6500-15000行,大约150-250列; 我最终在自动VBA批处理脚本中传输了大约20-150个.

我已经尝试了几种从Excel表(VBA)到SQL 2008获取大量数据的方法.我列出了以下内容:

方法1.将表传递到VBA阵列并发送到存储过程(ADO) - 发送到SQL是缓慢的

方法2.创建断开连接的RecordSet加载它,然后同步. - 发送到非常慢的SQL

方法3.将表放入VBA数组,循环遍历数组并连接(使用分隔符),然后发送到存储过程. - 发送到SQL SLOW,但比方法1或2更快.

方法4.将表放入VBA数组,循环遍历数组并连接(使用分隔符),然后将每行放置ADO recordset .addnew命令. - 发送到SQL非常快(比方法1-3快约20倍),但现在我需要使用单独的过程拆分数据,这将增加大量的等待时间.

方法5.将表放入VBA数组,序列化为XML,作为VARCHAR发送到存储过程并在存储过程中指定XML. - 发送到SQL INCREDIBLY SLOW(比方法1或2慢大约100倍)

我错过了什么？

import excel vba large-data sql-server-2008

csh*_*son

2017 09-23

9
推荐指数

1
解决办法

2万
查看次数

Python plot使用matplotlib的大矩阵

我试图绘制一个2000列和200000行的矩阵.当矩阵很小时,我可以测试绘图和测试输出矩阵图

matshow(my_matrix)
show()

Run Code Online (Sandbox Code Playgroud)

但是,当更多行添加到my_matrix时,图形变得非常窄,因为行数多于列,因此在放大时会失去精度.我可以使矩阵图形可滚动吗？如果没有,我怎么能在不失去精度的情况下可视化这样的矩阵？

我还尝试调用savefig('filename',dpi = 300)以保存图像而不会损失太多精度,但是当矩阵很大时它会抛出MemoryError.非常感谢!

python matplotlib matrix out-of-memory large-data

emi*_*ily

2017 09-23

9
推荐指数

1
解决办法

2571
查看次数

大稀疏矩阵到矩阵误差

我想应用鼠标包,但我无法将大型稀疏矩阵转换为矩阵.

library(Matrix)
library(mice)

i=c(2,9,6:10^7)
j=c(2,9,6:10^7)
x=7*(1:7^7)

write.csv(a,"a.csv")
c=read.csv("a.csv")
w=sparseMatrix(i=c[,1],j=c[,2],x=c[,3])

w=as.matrix(w)

Run Code Online (Sandbox Code Playgroud)

Error in asMethod(object) : 
      Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105

Run Code Online (Sandbox Code Playgroud)

r matrix sparse-matrix large-data r-mice

chi*_*hen

2018 07-17

9
推荐指数

0
解决办法

3027
查看次数

将Panda Dataframes写入块中的csv文件

我有一组大数据文件(1M行x 20列).但是,我只对5个左右的数据列感兴趣.

我想我可以通过仅使用感兴趣的列创建这些文件的副本来使我更容易,所以我有较小的文件可用于后期处理.

我的计划是将文件读入数据帧,然后写入csv文件.

我一直在研究将大块的数据文件读入数据帧.

但是,我还没有找到任何关于如何将数据写入块中的csv文件的内容.

这是我现在正在尝试的,但这不附加csv文件:

with open(os.path.join(folder, filename), 'r') as src:
    df = pd.read_csv(src, sep='\t',skiprows=(0,1,2),header=(0), chunksize=1000)
    for chunk in df:
        chunk.to_csv(os.path.join(folder, new_folder,
                                  "new_file_" + filename), 
                                  columns = [['TIME','STUFF']])

Run Code Online (Sandbox Code Playgroud)

python large-data dataframe export-to-csv pandas

Kor*_*ain

2017 09-23

9
推荐指数

2
解决办法

2万
查看次数