这是我的数据框
CATEGORY BRAND
0 Noodle Anak Mas
1 Noodle Anak Mas
2 Noodle Indomie
3 Noodle Indomie
4 Noodle Indomie
23 Noodle Indomie
24 Noodle Mi Telor Cap 3
25 Noodle Mi Telor Cap 3
26 Noodle Pop Mie
27 Noodle Pop Mie
...
Run Code Online (Sandbox Code Playgroud)
我已经确定df类型是字符串,我的代码是
df = data[['CATEGORY', 'BRAND']].astype(str)
import collections, re
texts = df
bagsofwords = [ collections.Counter(re.findall(r'\w+', txt))
for txt in texts]
sumbags = sum(bagsofwords, collections.Counter())
Run Code Online (Sandbox Code Playgroud)
我打电话的时候
sumbags
Run Code Online (Sandbox Code Playgroud)
输出是
Counter({'BRAND': 1, 'CATEGORY': 1})
Run Code Online (Sandbox Code Playgroud)
我希望除了标题之外,所有数据都计入sumbags,以便明确表达类似的内容
Counter({'Noodle': 10, 'Indomie': 4, …
Run Code Online (Sandbox Code Playgroud) 我尝试在我的jupyter notbook中测量查询速度
%time
a10= pd.read_sql('SELECT t.id, t.order_id FROM transactions.t', con=db_connection)
Run Code Online (Sandbox Code Playgroud)
无论我的查询是什么输出总是
Wall time: 0 ns
Run Code Online (Sandbox Code Playgroud)
我假设 %time
与之前的单元格没有关系,这个单元格需要超过10个才能执行,为什么Wall time: 0 ns
?
以前,我要求多年的周数可以用于绘图,并根据jezrael的回答我这样做:
sheet2['device_create_week'] = sheet2['device_create_at'].dt.strftime('%Y-%V')
sheet2.groupby(['device_create_week']).size().reset_index(na??me='device created count weekly')
Run Code Online (Sandbox Code Playgroud)
然后,我转向绘图
import matplotlib.pyplot as plt
from matplotlib import rcParams
rcParams['figure.figsize'] = (10, 6)
rcParams['figure.dpi'] = 150
fig = plt.figure()
plt.bar(pre['user_create_week'],pre['user created count weekly'], align='center', alpha=0.5)
plt.xlabel('week')
plt.ylabel('frequency')
plt.show()
fig.savefig('test.jpg')
Run Code Online (Sandbox Code Playgroud)
然后我看到一个错误:
TypeError:不支持的操作数类型 - :'str'和'float'
我应该做些什么?我有一个预期的解决方案,可以绘制每周频率的条形图.
如果您想要数据尝试,可以尝试以下数据:
136 2014-08-27 10:19:46
245 2014-09-25 09:13:22
257 2014-09-29 15:22:16
258 2014-09-29 15:22:16
480 2015-02-02 10:01:25
481 2015-02-02 10:01:25
482 2015-02-02 10:01:25
483 2015-02-02 10:01:25
484 2015-02-02 10:01:25
485 2015-02-02 10:01:25
486 2015-02-02 10:01:25
487 2015-02-02 …
Run Code Online (Sandbox Code Playgroud) 在这种情况下 n=100
这是我的数据集
id amount
1 1000
2 2000
3 2300.7632
4 4560
Run Code Online (Sandbox Code Playgroud)
我想要的是
id amount
3 2300.7632
4 4560
Run Code Online (Sandbox Code Playgroud)