小编Nei*_*eil的帖子

成对的半径距离计算

我有两个lat和long数组.我想计算每对lat和long之间的距离,以及阵列中每隔一对lat和long.这是我的两个数组.

lat_array

array([ 0.33356456,  0.33355585,  0.33355585,  0.33401788,  0.33370132,
        0.33370132,  0.33370132,  0.33371075,  0.33371075,  0.33370132,
        0.33370132,  0.33370132,  0.33356488,  0.33356488,  0.33370132,
        0.33370132,  0.33370132,  0.33401788,  0.33362632,  0.33362632,
        0.33364007,  0.33370132,  0.33401788,  0.33401788,  0.33358399,
        0.33358399,  0.33358399,  0.33370132,  0.33370132,  0.33362632,
        0.33370132,  0.33370132,  0.33370132,  0.33370132,  0.33370132,
        0.33356488,  0.33356456,  0.33391071,  0.33370132,  0.33356488,
        0.33356488,  0.33356456,  0.33356456,  0.33356456,  0.33362632,
        0.33364804,  0.3336314 ,  0.33370132,  0.33370132,  0.33370132,
        0.33364034,  0.33359921,  0.33370132,  0.33360397,  0.33348863,
        0.33370132])
long_array

array([ 1.27253229,  1.27249141,  1.27249141,  1.27259085,  1.2724337 ,
        1.2724337 ,  1.2724337 ,  1.27246931,  1.27246931,  1.2724337 ,
        1.2724337 ,  1.2724337 , …
Run Code Online (Sandbox Code Playgroud)

python arrays performance numpy haversine

4
推荐指数
3
解决办法
2118
查看次数

用索引数组切片熊猫数据框

我有一个像这样的熊猫数据框。

df = pd.DataFrame({'A' : [5,6,3,4,4,5,6,7,12,13], 'B' : 
     [1,2,3,5,5,6,7,8,9,10,]})

df

    A   B
0   5   1
1   6   2
2   3   3
3   4   5
4   4   5
5   5   6
6   6   7  
7   7   8
8  12   9
9  13  10
Run Code Online (Sandbox Code Playgroud)

我有一系列的索引

array = np.array([0,1,2,4,7,8])
Run Code Online (Sandbox Code Playgroud)

现在,我可以像这样用数组索引对数据框进行子集化

df.iloc[array]
Run Code Online (Sandbox Code Playgroud)

这给了我一个数组中存在索引的数据框。

    A  B
0   5  1
1   6  2
2   3  3
4   4  5
7   7  8
8  12  9
Run Code Online (Sandbox Code Playgroud)

现在我想要所有不在数组索引中的行,我想要的行索引是[3,5,6,9] 我正在尝试做这样的事情,但这给我一个错误。

df.iloc[~loc]

python pandas

3
推荐指数
1
解决办法
2217
查看次数

熊猫日期栏减法

我有一个像这样的熊猫数据框。

       created_time  reached_time
2016-01-02 12:57:44      14:20:22
2016-01-02 12:57:44      13:01:38
2016-01-03 10:38:51      12:24:07
2016-01-03 10:38:51      12:32:11
2016-01-03 10:38:52      12:23:20
2016-01-03 10:38:52      12:51:34
2016-01-03 10:38:52      12:53:33
2016-01-03 10:38:52      13:04:08
2016-01-03 10:38:52      13:13:40
Run Code Online (Sandbox Code Playgroud)

我想减去这两个日期列,并希望得到 time

我正在python中跟随

speed['created_time'].dt.time - speed['reached_time']
Run Code Online (Sandbox Code Playgroud)

但这给了我以下错误

TypeError: ufunc subtract cannot use operands with types dtype('O') and dtype('<m8[ns]')

的数据类型created_timeobject与数据类型reached_typeIStimedelta64[ns]

python datetime pandas

3
推荐指数
1
解决办法
1万
查看次数

如何在Python中的groupby中计算计数和百分比

分组后我有以下输出

Publisher.groupby('Category')['Title'].count()
Category
Coding          5
Hacking         7
Java            1
JavaScript      5
LEGO           43
Linux           7
Networking      5
Others        123
Python          8
R               2
Ruby            4
Scripting       4 
Statistics      2
Web             3
Run Code Online (Sandbox Code Playgroud)

在上面的输出中,我还希望该百分比,即第一行的百分比5*100/219,依此类推。我正在关注

 Publisher.groupby('Category')['Title'].agg({'Count':'count','Percentage':lambda x:x/x.sum()})
Run Code Online (Sandbox Code Playgroud)

但这给了我一个错误。请帮忙

python group-by pandas

3
推荐指数
1
解决办法
7756
查看次数

如何从电子邮件地址中提取“域”

我在专栏中有以下模式

xyz@gmail.com
abc@hotmail.com
Run Code Online (Sandbox Code Playgroud)

现在,我想@.gmail和hotmail 之前和之后提取文本。我可以.使用以下代码提取文本。

sub(".*@", "", email)
Run Code Online (Sandbox Code Playgroud)

如何在上面进行修改以适合我的用例?

regex r

3
推荐指数
2
解决办法
2521
查看次数

如何在dplyr中以递增的顺序排列降序甚至偶数的奇数

我在r中有以下数据帧

   ID     bay    row     number     
   1      43      11       ABC
   2      43      6        DEF
   3      43      13       QWE
   4      43      15       XDF
   5      43      4        VGH
   6      43      2        TYU
   7      11      11       QAS
   8      11      13       QTO
   9      11      12       EWQ
   10     11      10       RFT  
Run Code Online (Sandbox Code Playgroud)

我想按降序排列奇数到降序甚至偶数 bay

我想要的数据框将遵循

  ID     bay     row     number     
  1       43      15      XDF
  2       43      13      QWE
  3       43      11      ABC
  4       43      2       TYU
  5       43      4       VGH
  6       43      6       DEF
  7       11      13      QTO …
Run Code Online (Sandbox Code Playgroud)

r

3
推荐指数
1
解决办法
340
查看次数

如何获取R中数据框内所有列的离群值

我正在研究通用函数,它将采用数据框并返回数据框中每个变量的所有异常值,然后将其删除。

 outliers <- function(dataframe){
   dataframe <- select_if(dataframe, is.numeric)
   for(i in 1:length(dataframe)){
   paste(names(dataframe)[i]) <- boxplot.stats(names(dataframe)[i])$out)

  }
}
Run Code Online (Sandbox Code Playgroud)

我想在各个变量中输出所有离群值,然后最终从数据框中删除所有离群值。

我可以按照以下步骤一一删除

Clean_Data[!Clean_Data$House_Price %in% boxplot.stats(Clean_Data$House_Price)$out,]
Run Code Online (Sandbox Code Playgroud)

您可以从中获取数据 Clean_Data = read.csv('http://ucanalytics.com/blogs/wp-content/uploads/2016/09/Regression-Clean-Data.csv')

r

3
推荐指数
1
解决办法
1948
查看次数

如何在pandas中的groupby中进行第一个和最后一个观察并dcast数据帧

我在 pandas 中有以下数据框

  Date          time         tank        stock
  01-01-2018    05:30:00     1           4567
  01-01-2018    03:30:00     1           2345
  01-01-2018    04:30:00     1           1234
  01-01-2018    08:00:00     1           3345
  02-01-2018    06:30:00     2           4489
  02-01-2018    03:30:00     2           1290
  02-01-2018    11:30:00     2           6578
  02-01-2018    10:00:00     2           3444
Run Code Online (Sandbox Code Playgroud)

我想用日期、时间和罐对数据框进行排序,然后从库存中获取第一个和最后一个观察结果。

 Sorted Dataframe

  Date          time         tank        stock
  01-01-2018    03:30:00     1           2345
  01-01-2018    04:30:00     1           1234
  01-01-2018    08:00:00     1           3345
  01-01-2018    05:30:00     1           4567
  02-01-2018    03:30:00     2           1290
  02-01-2018    06:30:00     2           4489
  02-01-2018    10:00:00     2           3444
  02-01-2018    11:30:00     2           6578

  Desired dataframe …
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
517
查看次数

如何在 pandas 中获取以分钟为单位的时差

我在 pandas 中有以下数据框

  code     start_time      end_time
  0        13:00:09        13:30:09
  1        14:23:33        15:23:23
  2        11:30:00        12:30:00
Run Code Online (Sandbox Code Playgroud)

start_time并且end_time都是类型对象。

我想在几分钟内得到这两列的差异。我正在熊猫中做以下事情

df['time_diff'] = pd.Timestamp(df['start_time']) - pd.Timestamp(df['end_time'])   
Run Code Online (Sandbox Code Playgroud)

python time pandas

3
推荐指数
1
解决办法
4720
查看次数

如果数据框中不存在如何在 pandas 中添加列

我在 python 中有以下列名数组。

 col = ['code','ro','quantity','amount']
Run Code Online (Sandbox Code Playgroud)

我从一个函数获取处理后的数据帧,该函数可能具有也可能不具有上述所有列。如果数组中缺少这些列,我想添加默认值为 0 的列。

例如我得到以下数据框

df1

code      ro      quantity
123       342     34.56
123       445     54.56
Run Code Online (Sandbox Code Playgroud)

我想要的数据框是

code      ro      quantity  amount
123       342     34.56     0
123       445     54.56     0
Run Code Online (Sandbox Code Playgroud)

我怎样才能在熊猫中做到这一点?

python pandas

3
推荐指数
1
解决办法
1381
查看次数

标签 统计

python ×7

pandas ×6

r ×3

arrays ×1

datetime ×1

group-by ×1

haversine ×1

numpy ×1

performance ×1

regex ×1

time ×1