使用Python或R将非常大的sql文件导出到csv中

Question

使用Python或R将非常大的sql文件导出到csv中

我有一个大型的sql文件(20 GB),我想将其转换为csv.我计划将文件加载到Stata进行分析.我有足够的内存来加载整个文件(我的电脑在RAM中有32GB)

问题是:到目前为止我在网上找到的解决方案(sqlite3)似乎需要比我当前系统更多的RAM:

阅读SQL
写csv

这是代码

import sqlite3
import pandas as pd

con=sqlite3.connect('mydata.sql')
query='select * from mydata'
data=pd.read_sql(query,con)
data.to_csv('export.csv')
con.close()

Run Code Online (Sandbox Code Playgroud)

sql文件包含大约15个变量,可以是时间戳,字符串或数值.没什么好看的.

我认为一种可能的解决方案是读取sql并一次写一行csv文件.但是,我不知道如何做到这一点(在R或Python中)

任何帮助真的很感激!

Answer 1

Til*_*ann 11

您可以批量读取SQL数据库并将其写入文件,而不是一次读取整个数据库.感谢如何将pandas数据添加到现有的csv文件？有关如何添加到现有CSV文件.

import sqlite3
import pandas as pd

# Open the file
f = open('output.csv', 'w')
# Create a connection and get a cursor
connection = sqlite3.connect('mydata.sql')
cursor = connection.cursor()
# Execute the query
cursor.execute('select * from mydata')
# Get data in batches
while True:
    # Read the data
    df = pd.DataFrame(cursor.fetchmany(1000))
    # We are done if there are no data
    if len(df) == 0:
        break
    # Let's write to the file
    else:
        df.to_csv(f, header=False)

# Clean up
f.close()
cursor.close()
connection.close()

Run Code Online (Sandbox Code Playgroud)

尝试`df.to_csv（f，header = False，encoding ='utf-8'）`。 (2认同)

Answer 2

G. *_*eck 5

从 Windows cmd 行或 UNIX shell 中使用 sqlite3 命令行程序，如下所示：

sqlite3 -csv "mydata.sql" "select * from mydata;" > mydata.csv

Run Code Online (Sandbox Code Playgroud)

如果 mydata.sql 不在当前目录中，请使用路径，并且在 Windows 上使用正斜杠而不是反斜杠。

或者运行 sqlite3

sqlite3

Run Code Online (Sandbox Code Playgroud)

并在 sqlite 提示符下输入以下命令：

.open "mydata.sql"
.ouptut mydata.csv
.mode csv
select * from mydata;
.quit

Run Code Online (Sandbox Code Playgroud)

（或者将它们放入名为的文件中run，例如，然后使用sqlite3 < run.

归档时间：	9 年，11 月前
查看次数：	13588 次
最近记录：	9 年，11 月前