小编Car*_*Cox的帖子

根据标记化 pandas 数据框中出现的特定二元组创建新的布尔字段

循环搜索要搜索的二元组列表,我需要根据每个二元组是否存在于标记化的 pandas 系列中为每个二元组创建一个布尔字段。如果您认为这是一个好问题,我将不胜感激!

二元组列表:

bigrams = ['data science', 'computer science', 'bachelors degree']
Run Code Online (Sandbox Code Playgroud)

数据框:

df = pd.DataFrame(data={'job_description': [['data', 'science', 'degree', 'expert'],
                                            ['computer', 'science', 'degree', 'masters'],
                                            ['bachelors', 'degree', 'computer', 'vision'],
                                            ['data', 'processing', 'science']]})
Run Code Online (Sandbox Code Playgroud)

期望的输出:

                         job_description  data science computer science bachelors degree
0        [data, science, degree, expert]          True            False            False
1   [computer, science, degree, masters]         False             True            False
2  [bachelors, degree, computer, vision]         False            False             True
3             [data, bachelors, science]         False            False            False
Run Code Online (Sandbox Code Playgroud)

标准:

  1. 仅应替换完全匹配的内容(例如,标记“数据科学”应为“数据科学”返回 True,但为“科学数据”或“数据学士科学”返回 False)
  2. 每个搜索词应该有它自己的字段并连接到原始 df

我尝试过的:

失败的: df = …

python nlp boolean dataframe pandas

5
推荐指数
1
解决办法
121
查看次数

标签 统计

boolean ×1

dataframe ×1

nlp ×1

pandas ×1

python ×1