将文本数据存储在熊猫框架中，如何使用sklearn实现简单分类

Question

我有一个框架，在A列中存储文本评论，在B列中存储评分（1到5）。

id .....review ..............rating          
1  .....That was awful ......1...

例如，我需要基于word：occurrances词汇表等功能创建一个简单的（基于算法的）分类器，该分类器可以预测等级> 3或<3（假设如果等级> 3和0，如果<）

我不擅长Python和机器学习，因此我被Google搜索的所有示例所困扰。

请解释一下如何在该示例案例中提取特征，如何训练模型等等，或者为该案例提供出色的导师（我无法将sklearn导师转换为我的案例）。

Answer 1

您可以在scikit中非常轻松地执行此操作。

假设您有X和y数据：

X = ['the food was really delicious', 'the food was really terrible']
y = [5,2]

使用，CountVectorizer您可以将数据转换为2行代码中的数字：

from sklearn.feature_extraction.text import CountVectorizer
x_data = CountVectorizer().fit_transform(X)

这会将您的数据完全转换为计数，然后可以将其输入所需的任何算法中：

from sklearn.neighbors import KNeighbors
clf = KNeighbors().fit(x_data, y)