小编ema*_*max的帖子

为列pandas数据框分配唯一ID

您好我有以下数据帧

df = 
A      B   
John   Tom
Homer  Bart
Tom    Maggie
Lisa   John

Run Code Online (Sandbox Code Playgroud)

我想为每个名称分配一个唯一的ID并返回

df = 
A      B         C    D

John   Tom       0    1
Homer  Bart      2    3
Tom    Maggie    1    4 
Lisa   John      5    0

Run Code Online (Sandbox Code Playgroud)

我所做的是以下内容:

LL1 = pd.concat([df.a,df.b],ignore_index=True)
LL1 = pd.DataFrame(LL1)
LL1.columns=['a']
nameun = pd.unique(LL1.a.ravel())
LLout['c'] = 0
LLout['d'] = 0
NN = list(nameun)
for i in range(1,len(LLout)):
   LLout.c[i] = NN.index(LLout.a[i])
   LLout.d[i] = NN.index(LLout.b[i])

Run Code Online (Sandbox Code Playgroud)

但由于我有一个非常大的数据集,这个过程非常缓慢.

python pandas

ema*_*max

2015 10-22

2
推荐指数

1
解决办法

4538
查看次数

如何根据条件合并两个pandas数据框

我有两个数据框，如下所示：

df1
      A       B 
0     0       3
1     0       2
2     1       5
3     1       3
4     2       5
5   'Ciao'  'log'
6     3       4


df2
      A   B 
0     0   -1
1     0   20
2     1   -2
3     1   33
4     2   17

Run Code Online (Sandbox Code Playgroud)

我想合并两个数据帧，以便 ifA==0保留的值df1，否则保留的值df2。

最后，我想要类似以下的东西

df2
      A   B 
0     0   3
1     0   2
2     1   -2
3     1   33
4     2   17

Run Code Online (Sandbox Code Playgroud)

python pandas

ema*_*max

2023 05-17

2
推荐指数

1
解决办法

55
查看次数

Pandas Python:如何每10步获取数据帧的值？

我有一个简单的问题.我有以下数据帧

df =
    time                                        lat          lon
    0   2014-03-26 14:46:27.457233+00:00    48.7773     11.428897
    1   2014-03-26 14:46:28.457570+00:00    48.7773     11.428719
    2   2014-03-26 14:46:29.457665+00:00    48.7772     11.428542
    3   2014-03-26 14:46:30.457519+00:00    48.7771     11.428368
    4   2014-03-26 14:46:31.457855+00:00    48.7770     11.428193
    5   2014-03-26 14:46:32.457950+00:00    48.7770     11.428018
    6   2014-03-26 14:46:33.457794+00:00    48.7769     11.427842
    7   2014-03-26 14:46:34.458131+00:00    48.7768     11.427668
    8   2014-03-26 14:46:35.458246+00:00    48.7767     11.427501
    9   2014-03-26 14:46:36.458069+00:00    48.7766     11.427350
    10  2014-03-26 14:46:37.458416+00:00    48.7766     11.427224
    11  2014-03-26 14:46:38.458531+00:00    48.7765     11.427129
    12  2014-03-26 14:46:39.458355+00:00    48.7764     11.427062
    13  2014-03-26 14:46:40.458702+00:00    48.7764     11.427011
    14  2014-03-26 14:46:41.458807+00:00    48.7764 …

Run Code Online (Sandbox Code Playgroud)

python indexing dataframe pandas

ema*_*max

2015 09-23

1
推荐指数

1
解决办法

2472
查看次数

Python:如何只保留pandas列中的特定值？

我有一个df如下的数据帧

Run Code Online (Sandbox Code Playgroud)

哪里type(df['zip-code']) = str.我想只保留5-digit值并删除所有其余的值.

python string pandas

ema*_*max

lucky-day

1
推荐指数

1
解决办法

279
查看次数

Python：模块“pyarrow”没有属性“orc”

我已经安装了pyarrow槽pip

pip install pyarrow

import pyarrow as pya

Run Code Online (Sandbox Code Playgroud)

如果我调用该属性，orc则会出现以下错误

pya.orc
AttributeError: module 'pyarrow' has no attribute 'orc'

Run Code Online (Sandbox Code Playgroud)

python pyarrow

ema*_*max

lucky-day

1
推荐指数

1
解决办法

3002
查看次数

Python：如何从 S3 存储桶下载文件

我有一些数据存储在AWS S3存储桶中。

如果从终端我这样做：

aws s3 ls s3://myBucket/folder/ --profile myProfile
2020-04-23 01:04:09   96858539 2020-01-01-file.csv.gz

Run Code Online (Sandbox Code Playgroud)

如果我尝试使用下载文件boto3

import boto3
session = boto3.session.Session(profile_name='myProfile')
s3 = boto3.resource('s3')
f1 = '2020-01-01-file.csv.gz'
s3.meta.client.download_file('myBucket', 'folder/%s'%f1, f1)

Run Code Online (Sandbox Code Playgroud)

我收到以下错误

ClientError: An error occurred (403) when calling the HeadObject operation: Forbidden

Run Code Online (Sandbox Code Playgroud)

python amazon-s3 amazon-web-services boto3

ema*_*max

lucky-day

1
推荐指数

1
解决办法

4052
查看次数

Pyspark：如何添加带有行号的列？

我有一个pyspark数据框。我想添加一个包含行号的列。

这就是我正在做的

stop_df = stop_df.withColumn("stop_id", monotonically_increasing_id())

Run Code Online (Sandbox Code Playgroud)

如果我检查的最大值stop_id，我得到

stop_df.agg(max("stop_id")).show()
+--------------+
|  max(stop_id)|
+--------------+
|32478542692458|
+--------------+

Run Code Online (Sandbox Code Playgroud)

而行数是

stop_df.count()
Out[4]: 8134605

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

ema*_*max

lucky-day

0
推荐指数

1
解决办法

1553
查看次数

Python：如何旋转包含列表的数据框？

我有一个如下所示的 Pandas 数据框

df
     A        B
0   'X1'    [3,2,1,5]
1   'X2'    [0,-2,1,2]
2   'X3'    [5,1,1,-6]

Run Code Online (Sandbox Code Playgroud)

我想获得如下所示的数据框：

df
    X1    X2    X3
0   3     0     5
1   2    -2     1
2   1     1     1
3   5     2     6

Run Code Online (Sandbox Code Playgroud)

python pandas

ema*_*max

lucky-day

0
推荐指数

1
解决办法

21
查看次数

如何判断圆内有哪些点？

我有一个数据框df，其中包含IDs系统中所有点 ( )之间的距离。所以df看起来像下面这样：

df
    radius      ID1     ID2     x1          y1          x2          y2
0   0.454244    100     103     103.668919  1.335309    103.671812  1.332424
1   1.016734    100     123     103.668919  1.335309    103.677598  1.332424
2   0.643200    103     123     103.671812  1.332424    103.677598  1.332424
3   1.605608    100     124     103.668919  1.335309    103.677598  1.346851
4   1.728349    103     124     103.671812  1.332424    103.677598  1.346851

Run Code Online (Sandbox Code Playgroud)

我想计算所有点之间的圆，然后检查女巫点是否在该圆内。对于每个点，我都有一个单独的数据帧中的坐标coordinates。

coordinates
    ID      x           y
0   100     103.668919  1.335309
1   103     103.671812  1.332424
2   124     103.677598  1.346851
3   125     103.677598  1.349737 …

Run Code Online (Sandbox Code Playgroud)

python geometry patch point

ema*_*max

2019 06-01

-2
推荐指数

1
解决办法

2226
查看次数