我想在文件夹中打开一系列子文件夹,找到一些文本文件并打印一些文本文件行.我用这个:
configfiles = glob.glob('C:/Users/sam/Desktop/file1/*.txt')
Run Code Online (Sandbox Code Playgroud)
但是这也无法访问子文件夹.有谁知道如何使用相同的命令来访问子文件夹?
我有这样的数据帧:
cluster org time
1 a 8
1 a 6
2 h 34
1 c 23
2 d 74
3 w 6
Run Code Online (Sandbox Code Playgroud)
我想计算每个群组每个组织的平均时间.
预期结果:
cluster mean(time)
1 15 ((8+6)/2+23)/2
2 54 (74+34)/2
3 6
Run Code Online (Sandbox Code Playgroud)
我不知道如何在熊猫中做到这一点,任何人都可以帮忙吗?
我的数据框中有一列如下:
range
(2,30)
(50,290)
(400,1000)
...
Run Code Online (Sandbox Code Playgroud)
我想用' - '破折号替换','逗号.我目前正在使用此方法,但没有任何改变.
org_info_exc['range'].replace(',', '-', inplace=True)
Run Code Online (Sandbox Code Playgroud)
有人可以帮忙吗?
我有一个像这样的数据帧'gt':
org group
org1 1
org2 1
org3 2
org4 3
org5 3
org6 3
Run Code Online (Sandbox Code Playgroud)
并且我想将列'count'添加到gt dataframe以计算组成员的数量,预期结果如下:
org group count
org1 1 2
org2 1 2
org3 2 1
org4 3 3
org5 3 3
org6 3 3
Run Code Online (Sandbox Code Playgroud)
我知道如何对组中的每个项目执行此操作,但不知道如何对所有组项重复计数,这是我使用的代码:
gtcounts = gt.groupby('group').count()
Run Code Online (Sandbox Code Playgroud)
有人可以帮忙吗?
我正在运行一个脚本(在多处理模式下),它从一堆 JSON 文件中提取一些参数,但目前它非常慢。这是脚本:
from __future__ import print_function, division
import os
from glob import glob
from os import getpid
from time import time
from sys import stdout
import resource
from multiprocessing import Pool
import subprocess
try:
import simplejson as json
except ImportError:
import json
path = '/data/data//*.A.1'
print("Running with PID: %d" % getpid())
def process_file(file):
start = time()
filename =file.split('/')[-1]
print(file)
with open('/data/data/A.1/%s_DI' %filename, 'w') as w:
with open(file, 'r') as f:
for n, line in enumerate(f):
d = json.loads(line)
try: …
Run Code Online (Sandbox Code Playgroud) 我有一个像这样的数据框:
Name asn
Org1 asn1,asn2
org2 asn3
org3 asn4,asn5
Run Code Online (Sandbox Code Playgroud)
我想将我的 DataFrame 转换为如下所示:
Name asn
Org1 asn1
Org1 asn2
org2 asn3
org3 asn4
Org3 asn5
Run Code Online (Sandbox Code Playgroud)
有人知道我该怎么做吗?
我有一个像这样的DataFrame:
Name asn count
Org1 asn1,asn2 1
org2 asn3 2
org3 asn4,asn5 5
Run Code Online (Sandbox Code Playgroud)
我想将我的DataFrame转换为如下所示:
Name asn count
Org1 asn1 1
Org1 asn2 1
org2 asn3 2
org3 asn4 5
Org3 asn5 5
Run Code Online (Sandbox Code Playgroud)
我知道使用以下代码来完成两列,但我不知道我怎么能这样做三个.
df2 = df.asn.str.split(',').apply(pd.Series)
df2.index = df.Name
df2 = df2.stack().reset_index('Name')
Run Code Online (Sandbox Code Playgroud)
有人可以帮忙吗?
我有df:
domain orgid
csyunshu.com 108299
dshu.com 108299
bbbdshu.com 108299
cwakwakmrg.com 121303
ckonkatsunet.com 121303
Run Code Online (Sandbox Code Playgroud)
我想添加一个新列,用每个orgid替换域列和数字ID:
domain orgid domainid
csyunshu.com 108299 1
dshu.com 108299 2
bbbdshu.com 108299 3
cwakwakmrg.com 121303 1
ckonkatsunet.com 121303 2
Run Code Online (Sandbox Code Playgroud)
我已经尝试过这一行,但它没有给出我想要的结果:
df.groupby('orgid').count['domain'].reset_index()
Run Code Online (Sandbox Code Playgroud)
有人可以帮忙吗?
我有一个数据框 df:
domain country out1 out2 out3
oranjeslag.nl NL 1 0 NaN
pietervaartjes.nl NL 1 1 0
andreaputting.com.au AU NaN 1 0
michaelcardillo.com US 0 0 NaN
Run Code Online (Sandbox Code Playgroud)
我想定义两列 sum_0 和 sum_1 并计算每行列 (out1,out2,out3) 中 0 和 1 的数量。所以预期的结果是:
domain country out1 out2 out3 sum_0 sum_1
oranjeslag.nl NL 1 0 NaN 1 1
pietervaartjes.nl NL 1 1 0 1 2
andreaputting.com.au AU NaN 1 0 1 1
michaelcardillo.com US 0 0 NaN 2 0
Run Code Online (Sandbox Code Playgroud)
我有这个用于计算 1 数量的代码,但我不知道如何计算 0 的数量。
df['sum_1'] = …
Run Code Online (Sandbox Code Playgroud) 我想从URL列表中提取域名(站点名称+ TLD),这些URL的格式可能不同.例如:当前状态---->我想要什么
mail.yahoo.com------> yahoo.com
account.hotmail.co.uk---->hotmail.co.uk
x.it--->x.it
google.mail.com---> google.com
Run Code Online (Sandbox Code Playgroud)
是否有任何python代码可以帮助我从URL中提取我想要的内容,还是应该手动执行?