小编xxx*_*xxx的帖子

从postgres日期提取周数

我想提取周数:

2015-52
Run Code Online (Sandbox Code Playgroud)

从格式为的日期:

2015-12-27
Run Code Online (Sandbox Code Playgroud)

我怎样才能在postgres中执行此操作?

我的周数是从星期一到星期日计算的.

最好的祝福

time postgresql-9.1

15
推荐指数
2
解决办法
2万
查看次数

在dplyr中筛选专门包含特定值组合的组

给出如下表:

  id value
1  1     a
2  2     a
3  2     b
4  2     c
5  3     c
Run Code Online (Sandbox Code Playgroud)

我想过滤:

a)仅具有值a的id,即id 1.

b)共同包含a和b的id,即id 2.

数据:

data.frame(id = c(1,2,2,2,3), value = c("a", "a", "b", "c", "c"))
Run Code Online (Sandbox Code Playgroud)

r dplyr

5
推荐指数
1
解决办法
2822
查看次数

大熊猫的平均时差

我正在尝试计算平均时差,以小时/分钟/秒为单位,在一个字段上迭代 - 在我的示例中,对于每个不同的 IP 地址。此外,一列包含每个 ip 行的计数。

我的数据框看起来像:

date                  ipAddress
2016-08-08 00:39:00   98.249.244.22
2016-08-08 13:03:00   98.249.244.22
2016-08-20 21:37:00   98.211.135.179
2016-08-21 16:11:00   98.211.135.179
2016-08-21 16:19:00   98.211.135.179
2016-08-25 01:30:00   98.248.215.244
Run Code Online (Sandbox Code Playgroud)

我想要的输出:

ipAddress         avg_time_diff    count
98.249.244.22     avg_diff_1         2
98.211.135.179    avg_diff_2         3
98.248.215.244    0                  1
Run Code Online (Sandbox Code Playgroud)

重现 df:

{u'date': {3233: Timestamp('2016-08-08 00:39:00'),
  3551: Timestamp('2016-08-08 13:03:00'),
  349036: Timestamp('2016-08-20 21:37:00'),
  349040: Timestamp('2016-08-21 16:11:00'),
  349049: Timestamp('2016-08-21 16:19:00'),
  378843: Timestamp('2016-08-25 01:30:00')},
 u'ipAddress': {3233: u'98.249.244.22',
  3551: u'98.249.244.22',
 49036: u'98.211.135.179',
 349040: u'98.211.135.179',
 349049: u'98.211.135.179',
 378843: u'98.248.215.244'}}
Run Code Online (Sandbox Code Playgroud)

我不知道从哪里开始,它尝试了 timediff,但我不确定我是否理解它的工作原理以及如何将行迭代为“窗口函数”。提前致谢

python datetime pandas

5
推荐指数
1
解决办法
2708
查看次数

显示k-modes集群功能

我正在对分类数据执行聚类分析,因此使用k模式方法。

我的数据是根据偏好调查而设计的:您如何看待头发和眼睛?

在此处输入图片说明

受访者可以从4种可能性的固定(多项选择)集中选择答案。

因此,我得到了虚拟对象,应用了k模式,将群集附加到初始df,然后使用pca在2D中绘制它们。

我的代码如下:

import numpy as np
import pandas as pd
from kmodes import kmodes

df_dummy = pd.get_dummies(df)

#transform into numpy array
x = df_dummy.reset_index().values

km = kmodes.KModes(n_clusters=3, init='Huang', n_init=5, verbose=0)
clusters = km.fit_predict(x)
df_dummy['clusters'] = clusters


import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
pca = PCA(2)

# Turn the dummified df into two columns with PCA
plot_columns = pca.fit_transform(df_dummy.ix[:,0:12])

# Plot based on the two dimensions, and shade by cluster label
plt.scatter(x=plot_columns[:,1], y=plot_columns[:,0], c=df_dummy["clusters"], s=30)
plt.show() …
Run Code Online (Sandbox Code Playgroud)

k-means scikit-learn categorical-data

5
推荐指数
1
解决办法
7141
查看次数

在pandas中提取两个字符串之间的字符串

我有一个文本列,看起来像:

http://start.blabla.com/landing/fb603?&mkw...
Run Code Online (Sandbox Code Playgroud)

我想提取"start.blabla.com",它始终位于:

http://
Run Code Online (Sandbox Code Playgroud)

和:

/landing/
Run Code Online (Sandbox Code Playgroud)

即:

start.blabla.com
Run Code Online (Sandbox Code Playgroud)

我做:

df.col.str.extract('http://*?\/landing')
Run Code Online (Sandbox Code Playgroud)

但它不起作用.我究竟做错了什么?

python regex pandas

4
推荐指数
1
解决办法
1470
查看次数

显示大熊猫密度图中的平均线

我使用.plot()方法创建一个图形

df['age'].plot(kind='density')
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

我没有使用"plt"对象创建图形:有没有办法用.plot()的参数显示虚线作为平均值.

我总是很不清楚如何处理属性和plt之间的差异:

x = df['age'].values
result = plt.hist(x, bins=15, color='c')
plt.axvline(x.mean(), color='b', linestyle='dashed', linewidth=2)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

而且,我如何注释接近虚线的平均值?

python plot matplotlib pandas

0
推荐指数
1
解决办法
2184
查看次数