小编Pan*_*.V5的帖子

如何从字符串的 DataFrame 列中获取唯一单词?

我正在寻找一种方法来获取 DataFrame 中一列字符串中的唯一单词列表。

import pandas as pd
import numpy as np

df = pd.read_csv('FinalStemmedSentimentAnalysisDataset.csv', sep=';',dtype= 
       {'tweetId':int,'tweetText':str,'tweetDate':str,'sentimentLabel':int})

tweets = {}
tweets[0] = df[df['sentimentLabel'] == 0]
tweets[1] = df[df['sentimentLabel'] == 1]
Run Code Online (Sandbox Code Playgroud)

我使用的数据集来自此链接:http : //thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/

我得到了这个带有可变长度字符串的列,我想获得该列中每个唯一单词的列表及其计数,我怎样才能得到它?我在 python 中使用 Pandas,原始数据库有超过 100 万行,所以我还需要一些有效的方法来足够快地处理它,并且不会使代码运行太长时间。

列的示例可以是:

  • 为我的 apl 朋友感到难过。

  • 天哪,这太可怕了。

  • 这是什么新歌?

    列表可能类似于。

[is,so,sad,for,my,apl,friend,omg,this,terrible,what,new,song]

python numpy bayesian-networks dataframe pandas

2
推荐指数
1
解决办法
3280
查看次数

标签 统计

bayesian-networks ×1

dataframe ×1

numpy ×1

pandas ×1

python ×1