相关疑难解决方法(0)

熊猫数(不同)相当于

我使用pandas作为db替代品,因为我有多个数据库(oracle,mssql等),我无法为SQL等价物创建一系列命令.

我在DataFrame中加载了一些表,其中包含一些列:

YEARMONTH, CLIENTCODE, SIZE, .... etc etc

Run Code Online (Sandbox Code Playgroud)

在SQL中,要计算每年不同客户端的数量,请执行以下操作:

SELECT count(distinct CLIENTCODE) FROM table GROUP BY YEARMONTH;

Run Code Online (Sandbox Code Playgroud)

结果就是

201301    5000
201302    13245

Run Code Online (Sandbox Code Playgroud)

我怎么能在熊猫中做到这一点？

python group-by count distinct pandas

Adr*_*ida

2015 12-20

245
推荐指数

6
解决办法

31万
查看次数

计算大熊猫事件的最有效方法是什么？

我有一个大的(大约12M行)数据帧df说:

df.columns = ['word','documents','frequency']

Run Code Online (Sandbox Code Playgroud)

所以以下内容及时进行:

word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']

Run Code Online (Sandbox Code Playgroud)

但是,这需要很长时间才能运行:

Occurrences_of_Words = word_grouping[['word']].count().reset_index()

Run Code Online (Sandbox Code Playgroud)

我在这做错了什么？有没有更好的方法来计算大型数据框中的出现次数？

df.word.describe()

Run Code Online (Sandbox Code Playgroud)

运行得很好,所以我真的没想到这个Occurrences_of_Words数据帧需要很长时间才能构建.

ps:如果答案很明显,你觉得有必要惩罚我提出这个问题,请同时提供答案.谢谢.

python pandas

tip*_*lla

2019 03-09

104
推荐指数

3
解决办法

15万
查看次数

标签统计

pandas ×2

python ×2

count ×1

distinct ×1

group-by ×1

熊猫数(不同)相当于

计算大熊猫事件的最有效方法是什么？

标签 统计

标签统计