我正在寻找一种方法来获取 DataFrame 中一列字符串中的唯一单词列表。
import pandas as pd
import numpy as np
df = pd.read_csv('FinalStemmedSentimentAnalysisDataset.csv', sep=';',dtype=
{'tweetId':int,'tweetText':str,'tweetDate':str,'sentimentLabel':int})
tweets = {}
tweets[0] = df[df['sentimentLabel'] == 0]
tweets[1] = df[df['sentimentLabel'] == 1]
Run Code Online (Sandbox Code Playgroud)
我使用的数据集来自此链接:http : //thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/
我得到了这个带有可变长度字符串的列,我想获得该列中每个唯一单词的列表及其计数,我怎样才能得到它?我在 python 中使用 Pandas,原始数据库有超过 100 万行,所以我还需要一些有效的方法来足够快地处理它,并且不会使代码运行太长时间。
列的示例可以是:
为我的 apl 朋友感到难过。
天哪,这太可怕了。
这是什么新歌?
列表可能类似于。
[is,so,sad,for,my,apl,friend,omg,this,terrible,what,new,song]