小编 ow*_*ise的帖子

融化pandas数据框,具有多个变量名和多个值名

如何使用多个变量名称和值来融合pandas数据框？我有以下数据框,在for循环中更改其形状.在其中一个for循环迭代中,它看起来像这样:

ID  Cat    Class_A   Class_B     Prob_A     Prob_B
1   Veg      1        2          0.9         0.1
2   Veg      1        2          0.8         0.2
3   Meat     1        2          0.6         0.4
4   Meat     1        2          0.3         0.7
5   Veg      1        2          0.2         0.8

Run Code Online (Sandbox Code Playgroud)

我需要以这样的方式融化它:

ID  Cat    Class     Prob    
1   Veg      1       0.9       
1   Veg      2       0.1
2   Veg      1       0.8        
2   Veg      2       0.2
3   Meat     1       0.6         
3   Meat     2       0.4
4   Meat     1       0.3         
4   Meat     2       0.7
5   Veg      1       0.2         
5   Veg …

Run Code Online (Sandbox Code Playgroud)

python melt pandas

ow*_*ise

2017 08-14

11
推荐指数

1
解决办法

2055
查看次数

spaCy下使用BERT获取句子嵌入

我正在尝试使用 BERT 来获取句子嵌入。我是这样做的：

import spacy
nlp = spacy.load("en_core_web_trf")
nlp("The quick brown fox jumps over the lazy dog").vector

Run Code Online (Sandbox Code Playgroud)

这输出一个空向量！

array([], dtype=float32)

Run Code Online (Sandbox Code Playgroud)

我错过了什么吗？

python nlp spacy bert-language-model

ow*_*ise

2021 06-15

7
推荐指数

1
解决办法

2328
查看次数

如何在scrapy中通过CrawlerProcess传递自定义设置？

我有两个 CrawlerProcesses，每个都调用不同的蜘蛛。我想将自定义设置传递给这些进程之一以将蜘蛛的输出保存到 csv，我想我可以这样做：

storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'}
process = CrawlerProcess(get_project_settings())
process.crawl('ABC', crawl_links=main_links, custom_settings=storage_settings )
process.start()

Run Code Online (Sandbox Code Playgroud)

在我的蜘蛛中，我将它们读作一个论点：

    def __init__(self, crawl_links=None, allowed_domains=None, customom_settings=None,  *args, **kwargs):
    self.start_urls = crawl_links
    self.allowed_domains = allowed_domains
    self.custom_settings = custom_settings
    self.rules = ......
    super(mySpider, self).__init__(*args, **kwargs)

Run Code Online (Sandbox Code Playgroud)

但是我怎么能告诉我的项目设置文件“settings.py”这些自定义设置呢？我不想对它们进行硬编码，而是希望它们被自动读取。

python scrapy web-scraping scrapy-spider

ow*_*ise

lucky-day

6
推荐指数

1
解决办法

6570
查看次数

选择特定列以计算pandas中的行方式总计

在pandas数据框中分组后,是否有任何方法可以对列进行求和？例如,我有以下数据框:

ID   W_1       W_2     W_3 
1    0.1       0.2     0.3
1    0.2       0.4     0.5
2    0.3       0.3     0.2
2    0.1       0.3     0.4
2    0.2       0.0     0.5
1    0.5       0.3     0.2
1    0.4       0.2     0.1

Run Code Online (Sandbox Code Playgroud)

我想要一个名为"my_sum"的额外列,它将所有列中的第一行(W_1,W_2,W_3)相加.输出将是这样的:

ID   W_1       W_2     W_3     my_sum
1    0.1       0.2     0.3      0.6
1    0.2       0.4     0.5      1.1
2    0.3       0.3     0.2      0.8
2    0.1       0.3     0.4      0.8
2    0.2       0.0     0.5      0.7
1    0.5       0.3     0.2      1.0
1    0.4       0.2     0.1      0.7

Run Code Online (Sandbox Code Playgroud)

我发现了以下内容:

df['my_sum'] =   df.groupby('ID')['W_1','W_1','W_1'].transform(sum,axis=1)

Run Code Online (Sandbox Code Playgroud)

但这总结了W_1的所有条目.该文件 …

python numpy sum dataframe pandas

ow*_*ise

2018 12-28

4
推荐指数

1
解决办法

6468
查看次数

将绘图保存在一个 pdf 文件中

我正在尝试将 for a 循环中生成的绘图保存到一个 pdf 文件中，但这里说我们需要为此付费

此功能有任何更新吗？我们真的需要付费才能保存为pdf吗？

pandas plotly

ow*_*ise

lucky-day

4
推荐指数

1
解决办法

9699
查看次数

用其列的顺序替换Pandas数据框中的值

我们如何替换数据框中的特定值,以使替换等于这些特定值所在的第i列的顺序？例如,我有这个DF:

Run Code Online (Sandbox Code Playgroud)

用第1列所在的第i列(第1,第2,第3等)的顺序替换此数据框中的所有1,以便它像这样松散:

Run Code Online (Sandbox Code Playgroud)

这是我认为可行的,但它没有:

 DF_2= [(0 if i== 0 else j  for i in DF.iloc[:,j]  ) for j in range(DF.shape[1]) ]

Run Code Online (Sandbox Code Playgroud)

python list pandas

ow*_*ise

2017 08-02

3
推荐指数

1
解决办法

49
查看次数

在行级别上计算 pandas 数据框中的空单元格数量并相应地创建列

我有一个带有空单元格的数据框，如下所示：

  Col1       Col2      Col3       Col4        Col5       
   A                    B                       C
                                    G            
   E           R                                P
                        J                          
   C           K                                T

Run Code Online (Sandbox Code Playgroud)

我想创建一个额外的列，其中包含每行中的空单元格数量，因此预期输出如下：

 ID     Col1       Col2      Col3       Col4        Col5      No_Of_Empty     
 1       A                    B                       C           2
 2                                        G                       3
 3       E           R                                P           2
 4                            J                                   3
 5       C           K                                T           3

Run Code Online (Sandbox Code Playgroud)

这是我尝试过的：

df['No_Of_Des'] = df.iloc[:,1::].apply(lambda x: sum(x==' '), axis = 1)

Run Code Online (Sandbox Code Playgroud)

我得到的输出与预期的不同，我不确定这里出了什么问题？

python pandas

ow*_*ise

lucky-day

2
推荐指数

1
解决办法

5869
查看次数

丢弃pandas数据框中的randmly分散的空白空间

如何忽略数据帧内随机分布在数据帧中的空单元格？这是我所拥有的一个例子

 ColA    ColB    ColC    ColD    ColF    ColG    ColH
  A               b                                D
          W                      R                 D
  J                        H              T 
  Q               A                                O

Run Code Online (Sandbox Code Playgroud)

每行总共有3个条目,但空单元格是随机的.我看了这里,但由于我的数据随机性,它没有帮助

我期待的输出是:

 ColA_New    ColB_New    ColC_New     
  A        b       D      
  W        R       D               
  J        H       T        
  Q        A       O

Run Code Online (Sandbox Code Playgroud)

python pandas

ow*_*ise

lucky-day

1
推荐指数

1
解决办法

81
查看次数