我有两个lat和long数组.我想计算每对lat和long之间的距离,以及阵列中每隔一对lat和long.这是我的两个数组.
lat_array
array([ 0.33356456, 0.33355585, 0.33355585, 0.33401788, 0.33370132,
0.33370132, 0.33370132, 0.33371075, 0.33371075, 0.33370132,
0.33370132, 0.33370132, 0.33356488, 0.33356488, 0.33370132,
0.33370132, 0.33370132, 0.33401788, 0.33362632, 0.33362632,
0.33364007, 0.33370132, 0.33401788, 0.33401788, 0.33358399,
0.33358399, 0.33358399, 0.33370132, 0.33370132, 0.33362632,
0.33370132, 0.33370132, 0.33370132, 0.33370132, 0.33370132,
0.33356488, 0.33356456, 0.33391071, 0.33370132, 0.33356488,
0.33356488, 0.33356456, 0.33356456, 0.33356456, 0.33362632,
0.33364804, 0.3336314 , 0.33370132, 0.33370132, 0.33370132,
0.33364034, 0.33359921, 0.33370132, 0.33360397, 0.33348863,
0.33370132])
long_array
array([ 1.27253229, 1.27249141, 1.27249141, 1.27259085, 1.2724337 ,
1.2724337 , 1.2724337 , 1.27246931, 1.27246931, 1.2724337 ,
1.2724337 , 1.2724337 , …Run Code Online (Sandbox Code Playgroud) 我有一个像这样的熊猫数据框。
df = pd.DataFrame({'A' : [5,6,3,4,4,5,6,7,12,13], 'B' :
[1,2,3,5,5,6,7,8,9,10,]})
df
A B
0 5 1
1 6 2
2 3 3
3 4 5
4 4 5
5 5 6
6 6 7
7 7 8
8 12 9
9 13 10
Run Code Online (Sandbox Code Playgroud)
我有一系列的索引
array = np.array([0,1,2,4,7,8])
Run Code Online (Sandbox Code Playgroud)
现在,我可以像这样用数组索引对数据框进行子集化
df.iloc[array]
Run Code Online (Sandbox Code Playgroud)
这给了我一个数组中存在索引的数据框。
A B
0 5 1
1 6 2
2 3 3
4 4 5
7 7 8
8 12 9
Run Code Online (Sandbox Code Playgroud)
现在我想要所有不在数组索引中的行,我想要的行索引是[3,5,6,9]
我正在尝试做这样的事情,但这给我一个错误。
df.iloc[~loc]
我有一个像这样的熊猫数据框。
created_time reached_time
2016-01-02 12:57:44 14:20:22
2016-01-02 12:57:44 13:01:38
2016-01-03 10:38:51 12:24:07
2016-01-03 10:38:51 12:32:11
2016-01-03 10:38:52 12:23:20
2016-01-03 10:38:52 12:51:34
2016-01-03 10:38:52 12:53:33
2016-01-03 10:38:52 13:04:08
2016-01-03 10:38:52 13:13:40
Run Code Online (Sandbox Code Playgroud)
我想减去这两个日期列,并希望得到 time
我正在python中跟随
speed['created_time'].dt.time - speed['reached_time']
Run Code Online (Sandbox Code Playgroud)
但这给了我以下错误
TypeError: ufunc subtract cannot use operands with types dtype('O') and dtype('<m8[ns]')
的数据类型created_time是object与数据类型reached_typeIStimedelta64[ns]
分组后我有以下输出
Publisher.groupby('Category')['Title'].count()
Category
Coding 5
Hacking 7
Java 1
JavaScript 5
LEGO 43
Linux 7
Networking 5
Others 123
Python 8
R 2
Ruby 4
Scripting 4
Statistics 2
Web 3
Run Code Online (Sandbox Code Playgroud)
在上面的输出中,我还希望该百分比,即第一行的百分比5*100/219,依此类推。我正在关注
Publisher.groupby('Category')['Title'].agg({'Count':'count','Percentage':lambda x:x/x.sum()})
Run Code Online (Sandbox Code Playgroud)
但这给了我一个错误。请帮忙
我在专栏中有以下模式
xyz@gmail.com
abc@hotmail.com
Run Code Online (Sandbox Code Playgroud)
现在,我想@在.gmail和hotmail 之前和之后提取文本。我可以.使用以下代码提取文本。
sub(".*@", "", email)
Run Code Online (Sandbox Code Playgroud)
如何在上面进行修改以适合我的用例?
我在r中有以下数据帧
ID bay row number
1 43 11 ABC
2 43 6 DEF
3 43 13 QWE
4 43 15 XDF
5 43 4 VGH
6 43 2 TYU
7 11 11 QAS
8 11 13 QTO
9 11 12 EWQ
10 11 10 RFT
Run Code Online (Sandbox Code Playgroud)
我想按降序排列奇数到降序甚至偶数 bay
我想要的数据框将遵循
ID bay row number
1 43 15 XDF
2 43 13 QWE
3 43 11 ABC
4 43 2 TYU
5 43 4 VGH
6 43 6 DEF
7 11 13 QTO …Run Code Online (Sandbox Code Playgroud) 我正在研究通用函数,它将采用数据框并返回数据框中每个变量的所有异常值,然后将其删除。
outliers <- function(dataframe){
dataframe <- select_if(dataframe, is.numeric)
for(i in 1:length(dataframe)){
paste(names(dataframe)[i]) <- boxplot.stats(names(dataframe)[i])$out)
}
}
Run Code Online (Sandbox Code Playgroud)
我想在各个变量中输出所有离群值,然后最终从数据框中删除所有离群值。
我可以按照以下步骤一一删除
Clean_Data[!Clean_Data$House_Price %in% boxplot.stats(Clean_Data$House_Price)$out,]
Run Code Online (Sandbox Code Playgroud)
您可以从中获取数据 Clean_Data = read.csv('http://ucanalytics.com/blogs/wp-content/uploads/2016/09/Regression-Clean-Data.csv')
我在 pandas 中有以下数据框
Date time tank stock
01-01-2018 05:30:00 1 4567
01-01-2018 03:30:00 1 2345
01-01-2018 04:30:00 1 1234
01-01-2018 08:00:00 1 3345
02-01-2018 06:30:00 2 4489
02-01-2018 03:30:00 2 1290
02-01-2018 11:30:00 2 6578
02-01-2018 10:00:00 2 3444
Run Code Online (Sandbox Code Playgroud)
我想用日期、时间和罐对数据框进行排序,然后从库存中获取第一个和最后一个观察结果。
Sorted Dataframe
Date time tank stock
01-01-2018 03:30:00 1 2345
01-01-2018 04:30:00 1 1234
01-01-2018 08:00:00 1 3345
01-01-2018 05:30:00 1 4567
02-01-2018 03:30:00 2 1290
02-01-2018 06:30:00 2 4489
02-01-2018 10:00:00 2 3444
02-01-2018 11:30:00 2 6578
Desired dataframe …Run Code Online (Sandbox Code Playgroud) 我在 pandas 中有以下数据框
code start_time end_time
0 13:00:09 13:30:09
1 14:23:33 15:23:23
2 11:30:00 12:30:00
Run Code Online (Sandbox Code Playgroud)
start_time并且end_time都是类型对象。
我想在几分钟内得到这两列的差异。我正在熊猫中做以下事情
df['time_diff'] = pd.Timestamp(df['start_time']) - pd.Timestamp(df['end_time'])
Run Code Online (Sandbox Code Playgroud) 我在 python 中有以下列名数组。
col = ['code','ro','quantity','amount']
Run Code Online (Sandbox Code Playgroud)
我从一个函数获取处理后的数据帧,该函数可能具有也可能不具有上述所有列。如果数组中缺少这些列,我想添加默认值为 0 的列。
例如我得到以下数据框
df1
code ro quantity
123 342 34.56
123 445 54.56
Run Code Online (Sandbox Code Playgroud)
我想要的数据框是
code ro quantity amount
123 342 34.56 0
123 445 54.56 0
Run Code Online (Sandbox Code Playgroud)
我怎样才能在熊猫中做到这一点?