小编Nit*_*mar的帖子

这更像是一个关于理解而不是编程的问题.我是Pandas和SQL的新手.我正在使用pandas从SQL中读取一些特定的chunksize数据.当我运行SQL查询时,例如将pandas导入为pd

df = pd.read_sql_query('select name, birthdate from table1', chunksize = 1000)

我不明白的是,当我不给出一个chunksize时,数据存储在内存中我可以看到内存增长然而,当我给出一个chunksize时,内存使用率并不高.

我有的是,这个df现在包含了许多我可以访问的数组

for df_array in df:
    print df.head(5)

我不明白的是,如果SQL语句的整个结果保存在内存中,即df是一个携带多个数组的对象,或者它们就像是指向由SQL查询创建的临时表的指针.

我很乐意对这个过程的实际运作方式有所了解.

18
推荐指数

3
解决办法

2万
查看次数

我已经使用Neo4j的批量导入工具建立了一个图形数据库.我正在处理的数据是每天生成的,所以我需要每天更新我的图形数据库.运行批量导入不是解决方案,因为它将每天清理和上传整个数据.我试图使用加载csv cypher函数使用python这样做,但我无法.

ex = USING PERIODIC COMMIT LOAD CSV FROM myfile.csv AS row FIELDTERMINATOR ';'
ex += MERGE(:a{b:row[0],d:row[1]})

我试图使用py2neo的运行此命令

graph = py2neo.Graph()
graph.cypher.execute(ex)

我收到错误输入'G'无效:预期的空格,注释,"...字符串..."或参数(第1行,第37列(偏移36))

有没有办法直接在csv上使用python运行load csv？写外观不是问题,但这增加了额外的计算.

在此先感谢您的答案:)

1
推荐指数

1
解决办法

3292
查看次数

csv ×1

小编Nit_mar的帖子