将 pyodbc.rows 列表转换为 pandas Dataframe 需要很长时间

Question

将 pyodbc.rows 列表转换为 pandas Dataframe 需要很长时间

有没有更快的方法将 pyodbc.rows 对象转换为 pandas Dataframe？将超过 1000 万个 pyodbc.rows 对象的列表转换为 pandas 数据框大约需要 30-40 分钟。

import pyodbc
import pandas

server = <server_ip> 
database = <db_name> 
username = <db_user> 
password = <password> 
port='1443'

conn = pyodbc.connect('DRIVER={SQL Server};SERVER='+server+';PORT='+port+';DATABASE='+database+';UID='+username+';PWD='+ password)

#takes upto 12 minutes
rows = cursor.execute("select top 10000000 * from [LSLTGT].[MBR_DIM] ").fetchall() 

#Read cursor data into Pandas dataframe.....Takes forever!
df = pandas.DataFrame([tuple(t) for t in rows])

Run Code Online (Sandbox Code Playgroud)

Answer 1

ira*_*ira 8

还有一个选项可以直接使用 pandas 执行此操作：

df = pd.DataFrame.from_records(rows, columns=[col[0] for col in cursor.description])

Run Code Online (Sandbox Code Playgroud)

Answer 2

Owe*_*wen 7

通过使用生成器表达式而不是列表推导式，您可能会得到一些改进：

df = pandas.DataFrame((tuple(t) for t in rows))

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，11 月前
查看次数：	4009 次
最近记录：	5 年前