小编Pan*_*.V5的帖子

如何从字符串的 DataFrame 列中获取唯一单词？

我正在寻找一种方法来获取 DataFrame 中一列字符串中的唯一单词列表。

import pandas as pd
import numpy as np

df = pd.read_csv('FinalStemmedSentimentAnalysisDataset.csv', sep=';',dtype= 
       {'tweetId':int,'tweetText':str,'tweetDate':str,'sentimentLabel':int})

tweets = {}
tweets[0] = df[df['sentimentLabel'] == 0]
tweets[1] = df[df['sentimentLabel'] == 1]

Run Code Online (Sandbox Code Playgroud)

我使用的数据集来自此链接：http : //thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/

我得到了这个带有可变长度字符串的列，我想获得该列中每个唯一单词的列表及其计数，我怎样才能得到它？我在 python 中使用 Pandas，原始数据库有超过 100 万行，所以我还需要一些有效的方法来足够快地处理它，并且不会使代码运行太长时间。

列的示例可以是：