小编J R*_*za 的帖子

计算pandas数据帧中单词的频率

我有一张如下表:

      URN                   Firm_Name
0  104472               R.X. Yah & Co
1  104873        Big Building Society
2  109986          St James's Society
3  114058  The Kensington Society Ltd
4  113438      MMV Oil Associates Ltd

Run Code Online (Sandbox Code Playgroud)

我想计算Firm_Name列中所有单词的频率,得到如下输出:

我试过以下代码:

import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])

print(rslt)
print ('='*60)

Run Code Online (Sandbox Code Playgroud)

但是,以下代码不会产生唯一的字数.

python nltk pandas

J R*_*za

2017 10-17

16
推荐指数

2
解决办法

2万
查看次数