小编Phi*_*ski的帖子

PandaSQL 很慢

我目前正在从 R 切换到 Python(anconda/Spyder Python 3)以进行数据分析。在 RI 中使用了很多 R sqldf。由于我擅长sql查询,我不想重新学习data.table语法。使用 R sqldf,我从来没有遇到过性能问题。

现在,在 Python 中我尝试使用 pandasql 一个简单的df = "SELECT * From table LIMIT 1"将永远持续 193k 行,19 列。

我试过 pysqldf 但我收到一个错误,说该表不存在,但它确实存在。

# -*- coding: utf-8 -*-

import pandas as pd
import pandasql 
import pysqldf

#Data loading    
orders = pd.read_csv('data/orders.csv',sep = ';')

###### PANDASQL ######
test = pandasql.sqldf("SELECT  orders_id from orders LIMIT 1;",globals())
# Will last several minutes and use a lot of RAM

test = pandasql.sqldf("SELECT  orders_id from orders …
Run Code Online (Sandbox Code Playgroud)

python-3.x pandas pandasql

5
推荐指数
1
解决办法
2036
查看次数

标签 统计

pandas ×1

pandasql ×1

python-3.x ×1