您好我有以下数据帧
df =
A B
John Tom
Homer Bart
Tom Maggie
Lisa John
Run Code Online (Sandbox Code Playgroud)
我想为每个名称分配一个唯一的ID并返回
df =
A B C D
John Tom 0 1
Homer Bart 2 3
Tom Maggie 1 4
Lisa John 5 0
Run Code Online (Sandbox Code Playgroud)
我所做的是以下内容:
LL1 = pd.concat([df.a,df.b],ignore_index=True)
LL1 = pd.DataFrame(LL1)
LL1.columns=['a']
nameun = pd.unique(LL1.a.ravel())
LLout['c'] = 0
LLout['d'] = 0
NN = list(nameun)
for i in range(1,len(LLout)):
LLout.c[i] = NN.index(LLout.a[i])
LLout.d[i] = NN.index(LLout.b[i])
Run Code Online (Sandbox Code Playgroud)
但由于我有一个非常大的数据集,这个过程非常缓慢.
我有两个数据框,如下所示:
df1
A B
0 0 3
1 0 2
2 1 5
3 1 3
4 2 5
5 'Ciao' 'log'
6 3 4
df2
A B
0 0 -1
1 0 20
2 1 -2
3 1 33
4 2 17
Run Code Online (Sandbox Code Playgroud)
我想合并两个数据帧,以便 ifA==0保留 的值df1,否则保留 的值df2。
最后,我想要类似以下的东西
df2
A B
0 0 3
1 0 2
2 1 -2
3 1 33
4 2 17
Run Code Online (Sandbox Code Playgroud) 我有一个简单的问题.我有以下数据帧
df =
time lat lon
0 2014-03-26 14:46:27.457233+00:00 48.7773 11.428897
1 2014-03-26 14:46:28.457570+00:00 48.7773 11.428719
2 2014-03-26 14:46:29.457665+00:00 48.7772 11.428542
3 2014-03-26 14:46:30.457519+00:00 48.7771 11.428368
4 2014-03-26 14:46:31.457855+00:00 48.7770 11.428193
5 2014-03-26 14:46:32.457950+00:00 48.7770 11.428018
6 2014-03-26 14:46:33.457794+00:00 48.7769 11.427842
7 2014-03-26 14:46:34.458131+00:00 48.7768 11.427668
8 2014-03-26 14:46:35.458246+00:00 48.7767 11.427501
9 2014-03-26 14:46:36.458069+00:00 48.7766 11.427350
10 2014-03-26 14:46:37.458416+00:00 48.7766 11.427224
11 2014-03-26 14:46:38.458531+00:00 48.7765 11.427129
12 2014-03-26 14:46:39.458355+00:00 48.7764 11.427062
13 2014-03-26 14:46:40.458702+00:00 48.7764 11.427011
14 2014-03-26 14:46:41.458807+00:00 48.7764 …Run Code Online (Sandbox Code Playgroud) 我有一个df如下的数据帧
df:
zip-code
0 00234
1 23450
2 23450
3 10786
4 0
5 xyzvd
Run Code Online (Sandbox Code Playgroud)
哪里type(df['zip-code']) = str.我想只保留5-digit值并删除所有其余的值.
我已经安装了pyarrow槽pip
pip install pyarrow
import pyarrow as pya
Run Code Online (Sandbox Code Playgroud)
如果我调用该属性,orc则会出现以下错误
pya.orc
AttributeError: module 'pyarrow' has no attribute 'orc'
Run Code Online (Sandbox Code Playgroud) 我有一些数据存储在AWS S3存储桶中。
如果从终端我这样做:
aws s3 ls s3://myBucket/folder/ --profile myProfile
2020-04-23 01:04:09 96858539 2020-01-01-file.csv.gz
Run Code Online (Sandbox Code Playgroud)
如果我尝试使用下载文件boto3
import boto3
session = boto3.session.Session(profile_name='myProfile')
s3 = boto3.resource('s3')
f1 = '2020-01-01-file.csv.gz'
s3.meta.client.download_file('myBucket', 'folder/%s'%f1, f1)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误
ClientError: An error occurred (403) when calling the HeadObject operation: Forbidden
Run Code Online (Sandbox Code Playgroud) 我有一个pyspark数据框。我想添加一个包含行号的列。
这就是我正在做的
stop_df = stop_df.withColumn("stop_id", monotonically_increasing_id())
Run Code Online (Sandbox Code Playgroud)
如果我检查 的最大值stop_id,我得到
stop_df.agg(max("stop_id")).show()
+--------------+
| max(stop_id)|
+--------------+
|32478542692458|
+--------------+
Run Code Online (Sandbox Code Playgroud)
而行数是
stop_df.count()
Out[4]: 8134605
Run Code Online (Sandbox Code Playgroud) 我有一个如下所示的 Pandas 数据框
df
A B
0 'X1' [3,2,1,5]
1 'X2' [0,-2,1,2]
2 'X3' [5,1,1,-6]
Run Code Online (Sandbox Code Playgroud)
我想获得如下所示的数据框:
df
X1 X2 X3
0 3 0 5
1 2 -2 1
2 1 1 1
3 5 2 6
Run Code Online (Sandbox Code Playgroud) 我有一个数据框df,其中包含IDs系统中所有点 ( )之间的距离。所以df看起来像下面这样:
df
radius ID1 ID2 x1 y1 x2 y2
0 0.454244 100 103 103.668919 1.335309 103.671812 1.332424
1 1.016734 100 123 103.668919 1.335309 103.677598 1.332424
2 0.643200 103 123 103.671812 1.332424 103.677598 1.332424
3 1.605608 100 124 103.668919 1.335309 103.677598 1.346851
4 1.728349 103 124 103.671812 1.332424 103.677598 1.346851
Run Code Online (Sandbox Code Playgroud)
我想计算所有点之间的圆,然后检查女巫点是否在该圆内。对于每个点,我都有一个单独的数据帧中的坐标coordinates。
coordinates
ID x y
0 100 103.668919 1.335309
1 103 103.671812 1.332424
2 124 103.677598 1.346851
3 125 103.677598 1.349737 …Run Code Online (Sandbox Code Playgroud)