像sql一样在python中查询csv文件

Question

像sql一样在python中查询csv文件

这显然是一个流行的面试问题。
有 2 个包含恐龙数据的 CSV 文件。我们需要查询它们以返回满足特定条件的恐龙。

注意 - 我们不能使用 q、fsql、csvkit 等附加模块。

文件1.csv：

NAME,LEG_LENGTH,DIET
Hadrosaurus,1.2,herbivore
Struthiomimus,0.92,omnivore
Velociraptor,1.0,carnivore
Triceratops,0.87,herbivore
Euoplocephalus,1.6,herbivore
Stegosaurus,1.40,herbivore
Tyrannosaurus Rex,2.5,carnivore

Run Code Online (Sandbox Code Playgroud)

文件2.csv

NAME,STRIDE_LENGTH,STANCE
Euoplocephalus,1.87,quadrupedal
Stegosaurus,1.90,quadrupedal
Tyrannosaurus Rex,5.76,bipedal
Hadrosaurus,1.4,bipedal
Deinonychus,1.21,bipedal
Struthiomimus,1.34,bipedal
Velociraptor,2.72,bipedal

Run Code Online (Sandbox Code Playgroud)

使用论坛：速度 = ((STRIDE_LENGTH / LEG_LENGTH) - 1) * SQRT(LEG_LENGTH * g)，其中 g = 9.8 m/s^2

编写一个程序来读取 csv 文件，并仅打印双足恐龙的名称，按速度从最快到最慢排序。

在 SQL 中，这很简单：

select f2.name from
file1 f1 join file2 f2 on f1.name = f2.name
where f1.stance = 'bipedal'
order by (f2.stride_length/f1.leg_length - 1)*pow(f1.leg_length*9.8,0.5) desc

Run Code Online (Sandbox Code Playgroud)

这如何在 python 中完成？

Answer 1

mil*_*osh 6

你可以用 pandas 来做，

import pandas as pd
df_1 = pd.read_csv('df_1.csv')
df_2 = pd.read_csv('df_2.csv')

df_comb = df_1.join(df_2.set_index('NAME'), on = 'NAME')
df_comb = df_comb.loc[df_comb.STANCE == 'bipedal']
df_comb['SPEED'] = (df_comb.STRIDE_LENGTH/df_comb.LEG_LENGTH - 1)*pd.Series.pow(df_comb.LEG_LENGTH*9.8,0.5)
df_comb.sort_values('SPEED', ascending = False)

Run Code Online (Sandbox Code Playgroud)

不如 SQL 干净！

Answer 2

小智 3

您可以使用pandasql在 python 中编写 SQL 。

归档时间：	5 年，5 月前
查看次数：	16752 次
最近记录：	1 年，12 月前