小编Lea*_*ner的帖子

计算pandas列中列表元素的总数

我有一个pandas数据帧A,keywords列为(这里我只显示4行,但实际上有数百万): -

 keywords
 ['loans','mercedez','bugatti']
 ['trump','usa']
 ['galaxy','7s','canon','macbook']
 ['beiber','spiderman','marvels','ironmen']
Run Code Online (Sandbox Code Playgroud)

我想在列中汇总列表元素的总数keywords并将其存储到某个变量中.就像是

total_sum=elements in keywords[0]+elements in keywords[1]+elements in 
          keywords[2]+elements in keywords[3]

total_sum=3+2+4+4
total_sum=13
Run Code Online (Sandbox Code Playgroud)

我怎么能在熊猫里做到这一点?

python python-3.x pandas

7
推荐指数
3
解决办法
1925
查看次数

将 pandas 列中的关键字与另一个元素列表匹配

我有一个熊猫数据框:

word_list
['nuclear','election','usa','baseball']
['football','united','thriller']
['marvels','hollywood','spiderman']
....................
....................
....................
Run Code Online (Sandbox Code Playgroud)

我还有多个带有类别名称的列表,例如:-

movies=['spiderman','marvels','thriller']'

sports=['baseball','hockey','football'],

politics=['election','china','usa'] 和许多其他类别。

所有我想将 pandas 列的关键字word_list与我的类别列表相匹配,并在单独的列中分配相应的列表名称,如果关键字匹配在一起,并且如果任何关键字在任何列表中都没有匹配,那么只需将其作为 miscellaneous所以,输出我寻找为:-

word_list                                          matched_list_names
['nuclear','election','usa','baseball']            politics,sports,miscellaneous
['football','united','thriller']                   sports,movies,miscellaneous               
['marvels','spiderman','hockey']                   movies,sports

....................                               .....................
....................                               .....................
....................                               ....................
Run Code Online (Sandbox Code Playgroud)

我成功地获得了匹配关键字:-

for i in df['word_list']:
    for j in movies:
        if i in j:
           print (i)
Run Code Online (Sandbox Code Playgroud)

但这给了我匹配关键字的列表。如何获取列表名称并将其添加到 pandas 列中?

python python-3.x pandas

5
推荐指数
1
解决办法
606
查看次数

获取熊猫中每一列的非零值

我的熊猫数据框为df

accel access adviser afpif  afp   publish  afraid verizon
0.00  0.14    0.00   0.00   0.00   0.13    0.00   0.44
0.13  0.00    0.00   0.77   0.00   0.00    0.22   0.00
0.00  0.00    0.87   0.00   0.34   0.00    0.00   0.00
......................................................
.....................................................
Run Code Online (Sandbox Code Playgroud)

我还有一个列表L,其中包含列名称作为元素

L=['accel','afp','publish']
Run Code Online (Sandbox Code Playgroud)

我只想基于提取这些列表元素的非零值pandas dataframe

预期产量:

dictionary={'accel':0.13,'afp':0.34,'publish':0.13}
Run Code Online (Sandbox Code Playgroud)

python python-3.x pandas

4
推荐指数
1
解决办法
1587
查看次数

列表元素与 pandas 列的关键字匹配

我有元素列表:

 A=  ['loans','s-class','veyron','trump','rihana','drake','election']
Run Code Online (Sandbox Code Playgroud)

我也有另一只大熊猫数据框B与列categorywords是逗号分隔字符串: -

category              words
audi                  a4, a6
bugatti               veyron, chiron
mercedez              s-class, e-class
dslr                  canon, nikon
apple                 iphone,macbook,ipod
finance               sales,loans,sales price
politics              trump, election, votes
entertainment         spiderman,thor, ironmen
music                 beiber, rihana,drake
........              ..............
.........             .........
Run Code Online (Sandbox Code Playgroud)

我只想A用列映射列表元素words并将相应的分配category到新列表中。所以,预期的输出是。

matched_categories=['finance','mercedez','bugatti','politics','music','music','politics']
Run Code Online (Sandbox Code Playgroud)

python dataframe python-3.x pandas

3
推荐指数
1
解决办法
895
查看次数

根据条件从pandas系列中删除重复项

我有一个熊猫系列:

    increased   1.691759
    increased   1.601759
    reports     1.881759
    reports     1.491759
    president   1.386294
    president   1.791759
    exclusive   1.381759
    exclusive   1.291759
    bank        1.386294
    bank        1.791759
    ........    ........
    ........    .......
Run Code Online (Sandbox Code Playgroud)

我只想从系列中删除重复的单词,并保留具有更高数值的单词.所以,预期产量,

increased   1.691759
reports     1.881759
president   1.791759
exclusive   1.381759
bank        1.791759
........    ........
........    .......
Run Code Online (Sandbox Code Playgroud)

我通过将一个系列转换为pandas数据帧来尝试它,它运行正常.但是,由于我有大型系列,这将是一个耗时的过程.所以,我只想在现有系列中处理.

python python-3.x pandas

2
推荐指数
1
解决办法
173
查看次数

标签 统计

pandas ×5

python ×5

python-3.x ×5

dataframe ×1