将文本数据存储在熊猫框架中,如何使用sklearn实现简单分类

Ser*_*nin 3 classification pandas scikit-learn

我有一个框架,在A列中存储文本评论,在B列中存储评分(1到5)。

id .....review ..............rating          
1  .....That was awful ......1...
Run Code Online (Sandbox Code Playgroud)

例如,我需要基于word:occurrances词汇表等功能创建一个简单的(基于算法的)分类器,该分类器可以预测等级> 3或<3(假设如果等级> 3和0,如果<)

我不擅长Python和机器学习,因此我被Google搜索的所有示例所困扰。

请解释一下如何在该示例案例中提取特征,如何训练模型等等,或者为该案例提供出色的导师(我无法将sklearn导师转换为我的案例)。

Bun*_*oss 5

您可以在scikit中非常轻松地执行此操作。

假设您有X和y数据:

X = ['the food was really delicious', 'the food was really terrible']
y = [5,2]
Run Code Online (Sandbox Code Playgroud)

使用,CountVectorizer您可以将数据转换为2行代码中的数字:

from sklearn.feature_extraction.text import CountVectorizer
x_data = CountVectorizer().fit_transform(X)    
Run Code Online (Sandbox Code Playgroud)

这会将您的数据完全转换为计数,然后可以将其输入所需的任何算法中:

from sklearn.neighbors import KNeighbors
clf = KNeighbors().fit(x_data, y)
Run Code Online (Sandbox Code Playgroud)