小编ult*_*ron的帖子

在元素列表上设置操作

我有一个包含数千个与此类似的集合的列表:

set_list = [a, b, c, d]
Run Code Online (Sandbox Code Playgroud)

列表中的每个集看起来像这样:

a = set([1, 2, 3, 4, 5])
b = set([4, 5, 6, 7, 7, 9])
c = set([1, 2, 6, 8, 10, 12, 45])
d = set([11, 3, 23, 3, 4, 44])
Run Code Online (Sandbox Code Playgroud)

我想对列表中的每一组进行设置操作:X-(YUZUAUB ......等),例如,这看起来像这样:在set_list对新元素中的所有元素应用此操作之后像这样:

a = a.difference(b.union(c, d))
b = b.difference(c.union(a, d))
c = c.difference(d.union(b, a))
d = d.difference(a.union(c, b))
Run Code Online (Sandbox Code Playgroud)

我该怎么做到这一点?

python loops set python-3.x

5
推荐指数
1
解决办法
108
查看次数

多个类似命名列的统计信息

我有像多列一个巨大的数据集x1,x2,x3...... x25,y1,y2,y3...... y50,z1,z2...... z10等,这些看起来是这样的:

x1  x2  x3  x4  y1  y2  y3  
1   2   1   2   1   1   2   
2   1   1   1   3   1   1
1   2   2   1   1   2   1
Run Code Online (Sandbox Code Playgroud)

我想要的是:

x_mean  x_min  x_max  x_mad  y_mean  y_min  y_max  y_mad
  1.5     1      2     0.74    2       1      2      0 
  1.25    1      2       0     2       1      2      0 
  1.5     1      2     0.74 …
Run Code Online (Sandbox Code Playgroud)

statistics r dplyr

4
推荐指数
1
解决办法
65
查看次数

爆炸 pandas 数据框列

我有一个 Pandas 数据框,看起来像这样:

text = ["abcd", "efgh", "ijkl", "mnop", "qrst", "uvwx", "yz"]

labels = ["label_1, label_2", 
          "label_1, label_3, label_2", 
          "label_2, label_4", 
          "label_1, label_2, label_5", 
          "label_2, label_3", 
          "label_3, label_5, label_1, label_2", 
          "label_1, label_3"]

df = pd.DataFrame(dict(text=text, labels=labels))
df



   text                              labels
0  abcd                    label_1, label_2
1  efgh           label_1, label_3, label_2
2  ijkl                    label_2, label_4
3  mnop           label_1, label_2, label_5
4  qrst                    label_2, label_3
5  uvwx  label_3, label_5, label_1, label_2
6    yz                    label_1, label_3
Run Code Online (Sandbox Code Playgroud)

我想将数据框格式化为如下所示:

text  label_1  label_2  label_3  label_4  label_5

abcd        1.0 …
Run Code Online (Sandbox Code Playgroud)

python string text dataframe pandas

4
推荐指数
1
解决办法
963
查看次数

正则表达式在python中拆分电子邮件地址

我有这个:

email = 'serebro@gmail.com'
Run Code Online (Sandbox Code Playgroud)

我想要一个正则表达式来得到这个:

output = ['serebro', 'gmail', 'com']
Run Code Online (Sandbox Code Playgroud)

即给定一个电子邮件地址,我想要一个列表,其中包含名称、company_name 及其域类型作为输出

我可以做这样的事情:

regex_1 = re.compile("(?:@|^)[^@]*")
regex_1.findall("serebro@gmail.com")
Run Code Online (Sandbox Code Playgroud)

这给了我:

['serebro', '@google.com']
Run Code Online (Sandbox Code Playgroud)

我如何['serebro', 'gmail', 'com']进入python

python regex

2
推荐指数
1
解决办法
5302
查看次数

标签 统计

python ×3

dataframe ×1

dplyr ×1

loops ×1

pandas ×1

python-3.x ×1

r ×1

regex ×1

set ×1

statistics ×1

string ×1

text ×1