我目前正在从 R 切换到 Python(anconda/Spyder Python 3)以进行数据分析。在 RI 中使用了很多 R sqldf。由于我擅长sql查询,我不想重新学习data.table语法。使用 R sqldf,我从来没有遇到过性能问题。
现在,在 Python 中我尝试使用 pandasql 一个简单的df = "SELECT * From table LIMIT 1"将永远持续 193k 行,19 列。
我试过 pysqldf 但我收到一个错误,说该表不存在,但它确实存在。
# -*- coding: utf-8 -*-
import pandas as pd
import pandasql
import pysqldf
#Data loading
orders = pd.read_csv('data/orders.csv',sep = ';')
###### PANDASQL ######
test = pandasql.sqldf("SELECT orders_id from orders LIMIT 1;",globals())
# Will last several minutes and use a lot of RAM
test = pandasql.sqldf("SELECT orders_id from orders …Run Code Online (Sandbox Code Playgroud)