小编Nit*_*mar的帖子

Pandas SQL chunksize

这更像是一个关于理解而不是编程的问题.我是Pandas和SQL的新手.我正在使用pandas从SQL中读取一些特定的chunksize数据.当我运行SQL查询时,例如将pandas导入为pd

df = pd.read_sql_query('select name, birthdate from table1', chunksize = 1000)
Run Code Online (Sandbox Code Playgroud)

我不明白的是,当我不给出一个chunksize时,数据存储在内存中我可以看到内存增长然而,当我给出一个chunksize时,内存使用率并不高.

我有的是,这个df现在包含了许多我可以访问的数组

for df_array in df:
    print df.head(5)
Run Code Online (Sandbox Code Playgroud)

我不明白的是,如果SQL语句的整个结果保存在内存中,即df是一个携带多个数组的对象,或者它们就像是指向由SQL查询创建的临时表的指针.

我很乐意对这个过程的实际运作方式有所了解.

python sql-server chunks pandas

18
推荐指数
3
解决办法
2万
查看次数

Cypher用python加载csv

我已经使用Neo4j的批量导入工具建立了一个图形数据库.我正在处理的数据是每天生成的,所以我需要每天更新我的图形数据库.运行批量导入不是解决方案,因为它将每天清理和上传整个数据.我试图使用加载csv cypher函数使用python这样做,但我无法.

ex = USING PERIODIC COMMIT LOAD CSV FROM myfile.csv AS row FIELDTERMINATOR ';'
ex += MERGE(:a{b:row[0],d:row[1]})
Run Code Online (Sandbox Code Playgroud)

我试图使用py2neo的运行此命令

graph = py2neo.Graph()
graph.cypher.execute(ex)
Run Code Online (Sandbox Code Playgroud)

我收到错误输入'G'无效:预期的空格,注释,"...字符串..."或参数(第1行,第37列(偏移36))

使用此链接我了解到我必须查看行,然后我可以使用py2neo上传数据. https://codereview.stackexchange.com/questions/75842/optimizing-for-data-import-in-neo4j-using-py2neo

有没有办法直接在csv上使用python运行load csv?写外观不是问题,但这增加了额外的计算.

在此先感谢您的答案:)

csv load neo4j cypher py2neo

1
推荐指数
1
解决办法
3292
查看次数

标签 统计

chunks ×1

csv ×1

cypher ×1

load ×1

neo4j ×1

pandas ×1

py2neo ×1

python ×1

sql-server ×1