小编Use*_*YmY的帖子

如何在Python中使用glob.glob模块搜索子文件夹？

我想在文件夹中打开一系列子文件夹,找到一些文本文件并打印一些文本文件行.我用这个:

configfiles = glob.glob('C:/Users/sam/Desktop/file1/*.txt')

Run Code Online (Sandbox Code Playgroud)

但是这也无法访问子文件夹.有谁知道如何使用相同的命令来访问子文件夹？

python filesystems glob fnmatch

Use*_*YmY

2019 03-20

96
推荐指数

5
解决办法

15万
查看次数

Python Pandas:按分组和平均分组？

我有这样的数据帧:

cluster  org      time
   1      a       8
   1      a       6
   2      h       34
   1      c       23
   2      d       74
   3      w       6

Run Code Online (Sandbox Code Playgroud)

我想计算每个群组每个组织的平均时间.

预期结果:

cluster mean(time)
1       15 ((8+6)/2+23)/2
2       54   (74+34)/2
3       6

Run Code Online (Sandbox Code Playgroud)

我不知道如何在熊猫中做到这一点,任何人都可以帮忙吗？

python group-by mean pandas

Use*_*YmY

2018 05-06

76
推荐指数

2
解决办法

16万
查看次数

Python Pandas:如何替换数据框列中的字符？

我的数据框中有一列如下:

range
(2,30)
(50,290)
(400,1000)
...

Run Code Online (Sandbox Code Playgroud)

我想用' - '破折号替换','逗号.我目前正在使用此方法,但没有任何改变.

org_info_exc['range'].replace(',', '-', inplace=True)

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

python replace dataframe pandas

Use*_*YmY

2019 10-17

69
推荐指数

6
解决办法

13万
查看次数

Python pandas:在我的数据框中添加一个对变量进行计数的列

我有一个像这样的数据帧'gt':

org     group
org1      1
org2      1
org3      2
org4      3
org5      3
org6      3

Run Code Online (Sandbox Code Playgroud)

并且我想将列'count'添加到gt dataframe以计算组成员的数量,预期结果如下:

org     group   count
org1      1       2
org2      1       2
org3      2       1
org4      3       3
org5      3       3
org6      3       3

Run Code Online (Sandbox Code Playgroud)

我知道如何对组中的每个项目执行此操作,但不知道如何对所有组项重复计数,这是我使用的代码:

gtcounts = gt.groupby('group').count()

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

python group-by count pandas

Use*_*YmY

lucky-day

24
推荐指数

1
解决办法

2万
查看次数

如何加快在 Python 中加载和读取 JSON 文件的过程？

我正在运行一个脚本（在多处理模式下），它从一堆 JSON 文件中提取一些参数，但目前它非常慢。这是脚本：

from __future__ import print_function, division
import os
from glob import glob
from os import getpid
from time import time
from sys import stdout
import resource
from multiprocessing import Pool
import subprocess
try:
    import simplejson as json
except ImportError:
    import json


path = '/data/data//*.A.1'
print("Running with PID: %d" % getpid())

def process_file(file):
    start = time()
    filename =file.split('/')[-1]
    print(file)
    with open('/data/data/A.1/%s_DI' %filename, 'w') as w:
        with open(file, 'r') as f:
            for n, line in enumerate(f):
                d = json.loads(line)
                try: …

Run Code Online (Sandbox Code Playgroud)

python json

Use*_*YmY

lucky-day

9
推荐指数

2
解决办法

1万
查看次数

Pandas：如何将具有多个值的单元格转换为多行？

我有一个像这样的数据框：

Name asn
Org1 asn1,asn2
org2 asn3
org3 asn4,asn5

Run Code Online (Sandbox Code Playgroud)

我想将我的 DataFrame 转换为如下所示：

Name asn
Org1 asn1
Org1 asn2
org2 asn3
org3 asn4
Org3 asn5

Run Code Online (Sandbox Code Playgroud)

有人知道我该怎么做吗？

python dataframe pandas

Use*_*YmY

2017 01-02

6
推荐指数

1
解决办法

3459
查看次数

熊猫:如何将具有多个值的单元格转换为多行？

我有一个像这样的DataFrame:

Name asn  count
Org1 asn1,asn2 1
org2 asn3      2
org3 asn4,asn5 5

Run Code Online (Sandbox Code Playgroud)

我想将我的DataFrame转换为如下所示:

Name asn  count
Org1 asn1 1
Org1 asn2 1 
org2 asn3 2
org3 asn4 5
Org3 asn5 5

Run Code Online (Sandbox Code Playgroud)

我知道使用以下代码来完成两列,但我不知道我怎么能这样做三个.

df2 = df.asn.str.split(',').apply(pd.Series)          
df2.index = df.Name                                   
df2 = df2.stack().reset_index('Name')

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

python row converter dataframe pandas

Use*_*YmY

2017 09-17

6
推荐指数

1
解决办法

4676
查看次数

Python Pandas:我如何分组并为组中的所有项目分配ID？

我有df:

domain           orgid
csyunshu.com    108299
dshu.com        108299
bbbdshu.com     108299
cwakwakmrg.com  121303
ckonkatsunet.com    121303

Run Code Online (Sandbox Code Playgroud)

我想添加一个新列,用每个orgid替换域列和数字ID:

domain           orgid   domainid
csyunshu.com    108299      1
dshu.com        108299      2
bbbdshu.com     108299      3
cwakwakmrg.com  121303      1
ckonkatsunet.com 121303     2

Run Code Online (Sandbox Code Playgroud)

我已经尝试过这一行,但它没有给出我想要的结果:

df.groupby('orgid').count['domain'].reset_index()

Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗？

python indexing group-by pandas

Use*_*YmY

lucky-day

5
推荐指数

1
解决办法

5570
查看次数

Python Pandas：计算每行数据帧中特定值的频率？

我有一个数据框 df：

domain               country     out1 out2 out3
oranjeslag.nl           NL          1    0   NaN    
pietervaartjes.nl       NL          1    1    0
andreaputting.com.au    AU          NaN  1    0 
michaelcardillo.com     US          0    0    NaN

Run Code Online (Sandbox Code Playgroud)

我想定义两列 sum_0 和 sum_1 并计算每行列 (out1,out2,out3) 中 0 和 1 的数量。所以预期的结果是：

domain               country     out1 out2 out3   sum_0  sum_1
oranjeslag.nl           NL          1    0   NaN    1      1
pietervaartjes.nl       NL          1    1    0     1      2
andreaputting.com.au    AU          NaN  1    0     1      1
michaelcardillo.com     US          0    0    NaN   2      0

Run Code Online (Sandbox Code Playgroud)

我有这个用于计算 1 数量的代码，但我不知道如何计算 0 的数量。

df['sum_1'] = …

Run Code Online (Sandbox Code Playgroud)

python row sum pandas

Use*_*YmY

lucky-day

4
推荐指数

2
解决办法

1万
查看次数

如何从python中的URL获取域名(名称+ TLD)

我想从URL列表中提取域名(站点名称+ TLD),这些URL的格式可能不同.例如:当前状态---->我想要什么

mail.yahoo.com------> yahoo.com
account.hotmail.co.uk---->hotmail.co.uk
x.it--->x.it
google.mail.com---> google.com

Run Code Online (Sandbox Code Playgroud)

是否有任何python代码可以帮助我从URL中提取我想要的内容,还是应该手动执行？

python url domain-name python-2.7

Use*_*YmY

2013 03-17

3
推荐指数

1
解决办法

2956
查看次数

标签统计

python ×10

pandas ×7

dataframe ×3

group-by ×3

row ×2

converter ×1

count ×1

domain-name ×1

filesystems ×1

fnmatch ×1

glob ×1

indexing ×1

json ×1

mean ×1

python-2.7 ×1

replace ×1

sum ×1

url ×1

标签 统计

小编Use_YmY的帖子

标签统计