小编xxx_xxx的帖子

从postgres日期提取周数

我想提取周数:

2015-52

Run Code Online (Sandbox Code Playgroud)

从格式为的日期:

2015-12-27

Run Code Online (Sandbox Code Playgroud)

我怎样才能在postgres中执行此操作？

我的周数是从星期一到星期日计算的.

最好的祝福

time postgresql-9.1

15
推荐指数

2
解决办法

2万
查看次数

在dplyr中筛选专门包含特定值组合的组

给出如下表:

Run Code Online (Sandbox Code Playgroud)

我想过滤:

a)仅具有值a的id,即id 1.

b)共同包含a和b的id,即id 2.

数据:

data.frame(id = c(1,2,2,2,3), value = c("a", "a", "b", "c", "c"))

Run Code Online (Sandbox Code Playgroud)

5
推荐指数

1
解决办法

2822
查看次数

大熊猫的平均时差

我正在尝试计算平均时差，以小时/分钟/秒为单位，在一个字段上迭代 - 在我的示例中，对于每个不同的 IP 地址。此外，一列包含每个 ip 行的计数。

我的数据框看起来像：

date                  ipAddress
2016-08-08 00:39:00   98.249.244.22
2016-08-08 13:03:00   98.249.244.22
2016-08-20 21:37:00   98.211.135.179
2016-08-21 16:11:00   98.211.135.179
2016-08-21 16:19:00   98.211.135.179
2016-08-25 01:30:00   98.248.215.244

Run Code Online (Sandbox Code Playgroud)

我想要的输出：

ipAddress         avg_time_diff    count
98.249.244.22     avg_diff_1         2
98.211.135.179    avg_diff_2         3
98.248.215.244    0                  1

Run Code Online (Sandbox Code Playgroud)

重现 df：

{u'date': {3233: Timestamp('2016-08-08 00:39:00'),
  3551: Timestamp('2016-08-08 13:03:00'),
  349036: Timestamp('2016-08-20 21:37:00'),
  349040: Timestamp('2016-08-21 16:11:00'),
  349049: Timestamp('2016-08-21 16:19:00'),
  378843: Timestamp('2016-08-25 01:30:00')},
 u'ipAddress': {3233: u'98.249.244.22',
  3551: u'98.249.244.22',
 49036: u'98.211.135.179',
 349040: u'98.211.135.179',
 349049: u'98.211.135.179',
 378843: u'98.248.215.244'}}

Run Code Online (Sandbox Code Playgroud)

我不知道从哪里开始，它尝试了 timediff，但我不确定我是否理解它的工作原理以及如何将行迭代为“窗口函数”。提前致谢

python datetime pandas

5
推荐指数

1
解决办法

2708
查看次数

显示k-modes集群功能

我正在对分类数据执行聚类分析，因此使用k模式方法。

我的数据是根据偏好调查而设计的：您如何看待头发和眼睛？

受访者可以从4种可能性的固定（多项选择）集中选择答案。

因此，我得到了虚拟对象，应用了k模式，将群集附加到初始df，然后使用pca在2D中绘制它们。

我的代码如下：

import numpy as np
import pandas as pd
from kmodes import kmodes

df_dummy = pd.get_dummies(df)

#transform into numpy array
x = df_dummy.reset_index().values

km = kmodes.KModes(n_clusters=3, init='Huang', n_init=5, verbose=0)
clusters = km.fit_predict(x)
df_dummy['clusters'] = clusters


import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
pca = PCA(2)

# Turn the dummified df into two columns with PCA
plot_columns = pca.fit_transform(df_dummy.ix[:,0:12])

# Plot based on the two dimensions, and shade by cluster label
plt.scatter(x=plot_columns[:,1], y=plot_columns[:,0], c=df_dummy["clusters"], s=30)
plt.show() …

Run Code Online (Sandbox Code Playgroud)

k-means scikit-learn categorical-data

5
推荐指数

1
解决办法

7141
查看次数

在pandas中提取两个字符串之间的字符串

我有一个文本列,看起来像:

http://start.blabla.com/landing/fb603?&mkw...

Run Code Online (Sandbox Code Playgroud)

我想提取"start.blabla.com",它始终位于:

http://

Run Code Online (Sandbox Code Playgroud)

和:

/landing/

Run Code Online (Sandbox Code Playgroud)

即:

start.blabla.com

Run Code Online (Sandbox Code Playgroud)

我做:

df.col.str.extract('http://*?\/landing')

Run Code Online (Sandbox Code Playgroud)

但它不起作用.我究竟做错了什么？

python regex pandas

4
推荐指数

1
解决办法

1470
查看次数

显示大熊猫密度图中的平均线

我使用.plot()方法创建一个图形

df['age'].plot(kind='density')

Run Code Online (Sandbox Code Playgroud)

我没有使用"plt"对象创建图形:有没有办法用.plot()的参数显示虚线作为平均值.

我总是很不清楚如何处理属性和plt之间的差异:

x = df['age'].values
result = plt.hist(x, bins=15, color='c')
plt.axvline(x.mean(), color='b', linestyle='dashed', linewidth=2)

Run Code Online (Sandbox Code Playgroud)

而且,我如何注释接近虚线的平均值？

python plot matplotlib pandas

0
推荐指数

1
解决办法

2184
查看次数

标签统计

categorical-data ×1

plot ×1

postgresql-9.1 ×1

r ×1

scikit-learn ×1

time ×1