我想编写一个函数,列出在所有其他字典中至少出现df次数的字典项的计数器.
例:
prune(([{'a': 1, 'b': 10}, {'a': 1}, {'c': 1}], min_df=2)
[Counter({'a': 1}), Counter({'a': 1})]
prune(([{'a': 1, 'b': 10}, {'a': 2}, {'c': 1}], min_df=2)
[Counter({'a': 1}), Counter({'a': 2})]
Run Code Online (Sandbox Code Playgroud)
我们可以看到'a'在两个字典中出现两次,它会在输出中列出.
我的方法:
from collections import Counter
def prune(dicto,df=2):
new = Counter()
for d in dicto:
new += Counter(d.keys())
x = {}
for key,value in new.items():
if value >= df:
x[key] = value
print Counter(x)
Run Code Online (Sandbox Code Playgroud)
输出:
Counter({'a': 2})
Run Code Online (Sandbox Code Playgroud)
这将输出作为组合计数器.正如我们所看到的,术语'a'总体上出现了2次,因此它满足df条件并在输出中列出.现在,任何人都可以纠正我以获得所需的输出.
如果有一种方法可以逐行解析 Pandas 数据帧并将每一行的内容写入新的文本文件,我正试图通过谷歌搜索。我的数据框由一个名为 Reviews 的列组成。
我希望对电影评论进行一些情绪分析,并且我需要将每个评论都放在一个单独的文本文件中。有人可以在这里帮助我。