小编tre*_*ddy的帖子

我应该如何理解python-sklearn中的.transform方法?

介绍

我正在学习一门教程,我对Python和机器学习都很陌生.(所以,如果我看起来像诺贝尔,请道歉...这是因为我).该教程可以在这里找到:数据科学Python教程

问题中的代码行

我看到bow_transformer早期创建了一个变量:

bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
Run Code Online (Sandbox Code Playgroud)

我对'矢量化'的理解在这里并不是很清楚......我们是否说语料库中每条短信的每个单词都是自己的行?

然后,这个变量被转换(我假设transform这里是创建一个单词的某种(x,y)表示,以便机器可以读取+计算它们的出现次数:

bow4 = bow_transformer.transform(messages['message'])
messages_bow = bow_transformer.transform(messages['message'])
Run Code Online (Sandbox Code Playgroud)

到目前为止,我一般都很困惑......而且我认为我已经将所有内容合理化了(如果我在上面做了一些逻辑错误,请纠正我,这将有助于我对机器学习+ Python的理解非常有帮助.

现在,主要问题

我的困惑被以下块放大了:

tfidf_transformer = TfidfTransformer().fit(messages_bow)
tfidf4 = tfidf_transformer.transform(bow4)
Run Code Online (Sandbox Code Playgroud)

我的解释

messages_bow是弓变换(无论那意味着什么),然后messages_bow然后适合tfidfTransformer,并赋予tfidf_transformer变量.这个新创建的tfidf_transformer变量现在看起来不再像变量了,因为下一行是tfidf4使用上述过程/对象创建一个新变量()?

结论

我希望你们能理解我的困惑 - 我不知道如何搜索我的问题,因为我根本不知道我不知道的事情.我的问题是尖叫"Noobie",我希望这并不能阻止任何人认真对待我的问题.

python nlp scikit-learn

3
推荐指数
1
解决办法
1909
查看次数

标签 统计

nlp ×1

python ×1

scikit-learn ×1