我有一个样本数据集:
import pandas as pd
d = {
'H#': ['12843','12843','12843','12843','20000','20000','20000','20000','20000'],
'measure':[1,1,1,3,3,3,3,2,2],
'D':[1,0,2,1,1,1,2,1,1],
'N':[2,3,1,4,5,0,0,0,2]
}
df = pd.DataFrame(d)
df = df.reindex_axis(['H#','measure', 'D','N'], axis=1)
Run Code Online (Sandbox Code Playgroud)
看起来像:
H# measure D N
0 12843 1 1 2
1 12843 1 0 3
2 12843 1 2 1
3 12843 3 1 4
4 20000 3 1 5
5 20000 3 1 0
6 20000 3 2 0
7 20000 2 1 0
8 20000 2 1 2
Run Code Online (Sandbox Code Playgroud)
我想将 groupby 应用于不是通过 'H#' 和 'measure'测量=3 的 …
我有一个示例 pandas 数据框:
import pandas as pd
df = {'ID': [73, 68,1,94,42,22, 28,70,47, 46,17, 19, 56, 33 ],
'CloneID': [1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 4 ],
'VGene': ['64D', '64D', '64D', 61, 61, 61, 311, 311, 311, 311, 311, 311, 311, 311]}
df = pd.DataFrame(df)
Run Code Online (Sandbox Code Playgroud)
它看起来像这样:
df
Out[7]:
CloneID ID VGene
0 1 73 64D
1 1 68 64D
2 1 1 64D
3 1 94 61
4 1 42 61
5 2 …Run Code Online (Sandbox Code Playgroud) 我有一个示例数据:
import pandas as pd
d = {
'unit': ['001 peds', '002 peds1', '003 4U', '004 4U1', '005 MS'],
'N-D': ['Numerator', 'Denominator', 'Numerator', 'Denominator', 'Numerator'],
'value': [0, 1, 0, 1, 0],
}
df = pd.DataFrame(d)
Run Code Online (Sandbox Code Playgroud)
它看起来像这样:
N-D unit value
Numerator 001 peds 0
Denominator 002 peds1 1
Numerator 003 4U 0
Denominator 004 4U1 1
Numerator 005 MS 0
Run Code Online (Sandbox Code Playgroud)
我想用空格将'unit'列拆分为2:""我的代码:
df1 = df['unit'].str.split(" ", expand=True)
Run Code Online (Sandbox Code Playgroud)
输出是:
0 1
001 peds
002 peds1
003 4U
004 4U1
005 MS
Run Code Online (Sandbox Code Playgroud)
但我的其他2列已经不见了,我不太清楚在数据帧级别上执行此操作的正确语法,因此它将保留其余列.
我想要的输出: …
例如:
string = '(hello) advanced technologies (2015)'
Run Code Online (Sandbox Code Playgroud)
我想删除(你好)但保留(2015).我在网上搜索得到:
newstring = re.sub(r'\((?:[^)(]|\([^)(]*\))*\)',"",string)
Run Code Online (Sandbox Code Playgroud)
但它删除了两个括号:
advanced technologies
Run Code Online (Sandbox Code Playgroud)
如何更改re语句以仅删除第一个括号?