我想提取周数:
2015-52
Run Code Online (Sandbox Code Playgroud)
从格式为的日期:
2015-12-27
Run Code Online (Sandbox Code Playgroud)
我怎样才能在postgres中执行此操作?
我的周数是从星期一到星期日计算的.
最好的祝福
给出如下表:
id value
1 1 a
2 2 a
3 2 b
4 2 c
5 3 c
Run Code Online (Sandbox Code Playgroud)
我想过滤:
a)仅具有值a的id,即id 1.
b)共同包含a和b的id,即id 2.
数据:
data.frame(id = c(1,2,2,2,3), value = c("a", "a", "b", "c", "c"))
Run Code Online (Sandbox Code Playgroud) 我正在尝试计算平均时差,以小时/分钟/秒为单位,在一个字段上迭代 - 在我的示例中,对于每个不同的 IP 地址。此外,一列包含每个 ip 行的计数。
我的数据框看起来像:
date ipAddress
2016-08-08 00:39:00 98.249.244.22
2016-08-08 13:03:00 98.249.244.22
2016-08-20 21:37:00 98.211.135.179
2016-08-21 16:11:00 98.211.135.179
2016-08-21 16:19:00 98.211.135.179
2016-08-25 01:30:00 98.248.215.244
Run Code Online (Sandbox Code Playgroud)
我想要的输出:
ipAddress avg_time_diff count
98.249.244.22 avg_diff_1 2
98.211.135.179 avg_diff_2 3
98.248.215.244 0 1
Run Code Online (Sandbox Code Playgroud)
重现 df:
{u'date': {3233: Timestamp('2016-08-08 00:39:00'),
3551: Timestamp('2016-08-08 13:03:00'),
349036: Timestamp('2016-08-20 21:37:00'),
349040: Timestamp('2016-08-21 16:11:00'),
349049: Timestamp('2016-08-21 16:19:00'),
378843: Timestamp('2016-08-25 01:30:00')},
u'ipAddress': {3233: u'98.249.244.22',
3551: u'98.249.244.22',
49036: u'98.211.135.179',
349040: u'98.211.135.179',
349049: u'98.211.135.179',
378843: u'98.248.215.244'}}
Run Code Online (Sandbox Code Playgroud)
我不知道从哪里开始,它尝试了 timediff,但我不确定我是否理解它的工作原理以及如何将行迭代为“窗口函数”。提前致谢
我正在对分类数据执行聚类分析,因此使用k模式方法。
我的数据是根据偏好调查而设计的:您如何看待头发和眼睛?
受访者可以从4种可能性的固定(多项选择)集中选择答案。
因此,我得到了虚拟对象,应用了k模式,将群集附加到初始df,然后使用pca在2D中绘制它们。
我的代码如下:
import numpy as np
import pandas as pd
from kmodes import kmodes
df_dummy = pd.get_dummies(df)
#transform into numpy array
x = df_dummy.reset_index().values
km = kmodes.KModes(n_clusters=3, init='Huang', n_init=5, verbose=0)
clusters = km.fit_predict(x)
df_dummy['clusters'] = clusters
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
pca = PCA(2)
# Turn the dummified df into two columns with PCA
plot_columns = pca.fit_transform(df_dummy.ix[:,0:12])
# Plot based on the two dimensions, and shade by cluster label
plt.scatter(x=plot_columns[:,1], y=plot_columns[:,0], c=df_dummy["clusters"], s=30)
plt.show() …
Run Code Online (Sandbox Code Playgroud) 我有一个文本列,看起来像:
http://start.blabla.com/landing/fb603?&mkw...
Run Code Online (Sandbox Code Playgroud)
我想提取"start.blabla.com",它始终位于:
http://
Run Code Online (Sandbox Code Playgroud)
和:
/landing/
Run Code Online (Sandbox Code Playgroud)
即:
start.blabla.com
Run Code Online (Sandbox Code Playgroud)
我做:
df.col.str.extract('http://*?\/landing')
Run Code Online (Sandbox Code Playgroud)
但它不起作用.我究竟做错了什么?
我使用.plot()方法创建一个图形
df['age'].plot(kind='density')
Run Code Online (Sandbox Code Playgroud)
我没有使用"plt"对象创建图形:有没有办法用.plot()的参数显示虚线作为平均值.
我总是很不清楚如何处理属性和plt之间的差异:
x = df['age'].values
result = plt.hist(x, bins=15, color='c')
plt.axvline(x.mean(), color='b', linestyle='dashed', linewidth=2)
Run Code Online (Sandbox Code Playgroud)
而且,我如何注释接近虚线的平均值?