小编Use*_*YmY的帖子

如何在Python中使用glob.glob模块搜索子文件夹?

我想在文件夹中打开一系列子文件夹,找到一些文本文件并打印一些文本文件行.我用这个:

configfiles = glob.glob('C:/Users/sam/Desktop/file1/*.txt')
Run Code Online (Sandbox Code Playgroud)

但是这也无法访问子文件夹.有谁知道如何使用相同的命令来访问子文件夹?

python filesystems glob fnmatch

96
推荐指数
5
解决办法
15万
查看次数

Python Pandas:按分组和平均分组?

我有这样的数据帧:

cluster  org      time
   1      a       8
   1      a       6
   2      h       34
   1      c       23
   2      d       74
   3      w       6 
Run Code Online (Sandbox Code Playgroud)

我想计算每个群组每个组织的平均时间.

预期结果:

cluster mean(time)
1       15 ((8+6)/2+23)/2
2       54   (74+34)/2
3       6
Run Code Online (Sandbox Code Playgroud)

我不知道如何在熊猫中做到这一点,任何人都可以帮忙吗?

python group-by mean pandas

76
推荐指数
2
解决办法
16万
查看次数

Python Pandas:如何替换数据框列中的字符?

我的数据框中有一列如下:

range
(2,30)
(50,290)
(400,1000)
... 
Run Code Online (Sandbox Code Playgroud)

我想用' - '破折号替换','逗号.我目前正在使用此方法,但没有任何改变.

org_info_exc['range'].replace(',', '-', inplace=True)
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

python replace dataframe pandas

69
推荐指数
6
解决办法
13万
查看次数

Python pandas:在我的数据框中添加一个对变量进行计数的列

我有一个像这样的数据帧'gt':

org     group
org1      1
org2      1
org3      2
org4      3
org5      3
org6      3
Run Code Online (Sandbox Code Playgroud)

并且我想将列'count'添加到gt dataframe以计算组成员的数量,预期结果如下:

org     group   count
org1      1       2
org2      1       2
org3      2       1
org4      3       3
org5      3       3
org6      3       3
Run Code Online (Sandbox Code Playgroud)

我知道如何对组中的每个项目执行此操作,但不知道如何对所有组项重复计数,这是我使用的代码:

gtcounts = gt.groupby('group').count()
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

python group-by count pandas

24
推荐指数
1
解决办法
2万
查看次数

如何加快在 Python 中加载和读取 JSON 文件的过程?

我正在运行一个脚本(在多处理模式下),它从一堆 JSON 文件中提取一些参数,但目前它非常慢。这是脚本:

from __future__ import print_function, division
import os
from glob import glob
from os import getpid
from time import time
from sys import stdout
import resource
from multiprocessing import Pool
import subprocess
try:
    import simplejson as json
except ImportError:
    import json


path = '/data/data//*.A.1'
print("Running with PID: %d" % getpid())

def process_file(file):
    start = time()
    filename =file.split('/')[-1]
    print(file)
    with open('/data/data/A.1/%s_DI' %filename, 'w') as w:
        with open(file, 'r') as f:
            for n, line in enumerate(f):
                d = json.loads(line)
                try: …
Run Code Online (Sandbox Code Playgroud)

python json

9
推荐指数
2
解决办法
1万
查看次数

Pandas:如何将具有多个值的单元格转换为多行?

我有一个像这样的数据框:

Name asn
Org1 asn1,asn2
org2 asn3
org3 asn4,asn5
Run Code Online (Sandbox Code Playgroud)

我想将我的 DataFrame 转换为如下所示:

Name asn
Org1 asn1
Org1 asn2
org2 asn3
org3 asn4
Org3 asn5
Run Code Online (Sandbox Code Playgroud)

有人知道我该怎么做吗?

python dataframe pandas

6
推荐指数
1
解决办法
3459
查看次数

熊猫:如何将具有多个值的单元格转换为多行?

我有一个像这样的DataFrame:

Name asn  count
Org1 asn1,asn2 1
org2 asn3      2
org3 asn4,asn5 5
Run Code Online (Sandbox Code Playgroud)

我想将我的DataFrame转换为如下所示:

Name asn  count
Org1 asn1 1
Org1 asn2 1 
org2 asn3 2
org3 asn4 5
Org3 asn5 5
Run Code Online (Sandbox Code Playgroud)

我知道使用以下代码来完成两列,但我不知道我怎么能这样做三个.

df2 = df.asn.str.split(',').apply(pd.Series)          
df2.index = df.Name                                   
df2 = df2.stack().reset_index('Name') 
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

python row converter dataframe pandas

6
推荐指数
1
解决办法
4676
查看次数

Python Pandas:我如何分组并为组中的所有项目分配ID?

我有df:

domain           orgid
csyunshu.com    108299
dshu.com        108299
bbbdshu.com     108299
cwakwakmrg.com  121303
ckonkatsunet.com    121303
Run Code Online (Sandbox Code Playgroud)

我想添加一个新列,用每个orgid替换域列和数字ID:

domain           orgid   domainid
csyunshu.com    108299      1
dshu.com        108299      2
bbbdshu.com     108299      3
cwakwakmrg.com  121303      1
ckonkatsunet.com 121303     2
Run Code Online (Sandbox Code Playgroud)

我已经尝试过这一行,但它没有给出我想要的结果:

df.groupby('orgid').count['domain'].reset_index()
Run Code Online (Sandbox Code Playgroud)

有人可以帮忙吗?

python indexing group-by pandas

5
推荐指数
1
解决办法
5570
查看次数

Python Pandas:计算每行数据帧中特定值的频率?

我有一个数据框 df:

domain               country     out1 out2 out3
oranjeslag.nl           NL          1    0   NaN    
pietervaartjes.nl       NL          1    1    0
andreaputting.com.au    AU          NaN  1    0 
michaelcardillo.com     US          0    0    NaN
Run Code Online (Sandbox Code Playgroud)

我想定义两列 sum_0 和 sum_1 并计算每行列 (out1,out2,out3) 中 0 和 1 的数量。所以预期的结果是:

domain               country     out1 out2 out3   sum_0  sum_1
oranjeslag.nl           NL          1    0   NaN    1      1
pietervaartjes.nl       NL          1    1    0     1      2
andreaputting.com.au    AU          NaN  1    0     1      1
michaelcardillo.com     US          0    0    NaN   2      0
Run Code Online (Sandbox Code Playgroud)

我有这个用于计算 1 数量的代码,但我不知道如何计算 0 的数量。

df['sum_1'] = …
Run Code Online (Sandbox Code Playgroud)

python row sum pandas

4
推荐指数
2
解决办法
1万
查看次数

如何从python中的URL获取域名(名称+ TLD)

我想从URL列表中提取域名(站点名称+ TLD),这些URL的格式可能不同.例如:当前状态---->我想要什么

mail.yahoo.com------> yahoo.com
account.hotmail.co.uk---->hotmail.co.uk
x.it--->x.it
google.mail.com---> google.com
Run Code Online (Sandbox Code Playgroud)

是否有任何python代码可以帮助我从URL中提取我想要的内容,还是应该手动执行?

python url domain-name python-2.7

3
推荐指数
1
解决办法
2956
查看次数