ℕʘʘ*_*ḆḽḘ 4 python sql csv export r
我有一个大型的sql文件(20 GB),我想将其转换为csv.我计划将文件加载到Stata进行分析.我有足够的内存来加载整个文件(我的电脑在RAM中有32GB)
问题是:到目前为止我在网上找到的解决方案(sqlite3)似乎需要比我当前系统更多的RAM:
这是代码
import sqlite3
import pandas as pd
con=sqlite3.connect('mydata.sql')
query='select * from mydata'
data=pd.read_sql(query,con)
data.to_csv('export.csv')
con.close()
Run Code Online (Sandbox Code Playgroud)
sql文件包含大约15个变量,可以是时间戳,字符串或数值.没什么好看的.
我认为一种可能的解决方案是读取sql并一次写一行csv文件.但是,我不知道如何做到这一点(在R或Python中)
任何帮助真的很感激!
Til*_*ann 11
您可以批量读取SQL数据库并将其写入文件,而不是一次读取整个数据库.感谢 如何将pandas数据添加到现有的csv文件?有关如何添加到现有CSV文件.
import sqlite3
import pandas as pd
# Open the file
f = open('output.csv', 'w')
# Create a connection and get a cursor
connection = sqlite3.connect('mydata.sql')
cursor = connection.cursor()
# Execute the query
cursor.execute('select * from mydata')
# Get data in batches
while True:
# Read the data
df = pd.DataFrame(cursor.fetchmany(1000))
# We are done if there are no data
if len(df) == 0:
break
# Let's write to the file
else:
df.to_csv(f, header=False)
# Clean up
f.close()
cursor.close()
connection.close()
Run Code Online (Sandbox Code Playgroud)
从 Windows cmd 行或 UNIX shell 中使用 sqlite3 命令行程序,如下所示:
sqlite3 -csv "mydata.sql" "select * from mydata;" > mydata.csv
Run Code Online (Sandbox Code Playgroud)
如果 mydata.sql 不在当前目录中,请使用路径,并且在 Windows 上使用正斜杠而不是反斜杠。
或者运行 sqlite3
sqlite3
Run Code Online (Sandbox Code Playgroud)
并在 sqlite 提示符下输入以下命令:
.open "mydata.sql"
.ouptut mydata.csv
.mode csv
select * from mydata;
.quit
Run Code Online (Sandbox Code Playgroud)
(或者将它们放入名为 的文件中run
,例如,然后使用sqlite3 < run
.