我正在学习一门教程,我对Python和机器学习都很陌生.(所以,如果我看起来像诺贝尔,请道歉...这是因为我).该教程可以在这里找到:数据科学Python教程
我看到bow_transformer早期创建了一个变量:
bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
Run Code Online (Sandbox Code Playgroud)
我对'矢量化'的理解在这里并不是很清楚......我们是否说语料库中每条短信的每个单词都是自己的行?
然后,这个变量被转换(我假设transform这里是创建一个单词的某种(x,y)表示,以便机器可以读取+计算它们的出现次数:
bow4 = bow_transformer.transform(messages['message'])
messages_bow = bow_transformer.transform(messages['message'])
Run Code Online (Sandbox Code Playgroud)
到目前为止,我一般都很困惑......而且我认为我已经将所有内容合理化了(如果我在上面做了一些逻辑错误,请纠正我,这将有助于我对机器学习+ Python的理解非常有帮助.
我的困惑被以下块放大了:
tfidf_transformer = TfidfTransformer().fit(messages_bow)
tfidf4 = tfidf_transformer.transform(bow4)
Run Code Online (Sandbox Code Playgroud)
messages_bow是弓变换(无论那意味着什么),然后messages_bow然后适合tfidfTransformer,并赋予tfidf_transformer变量.这个新创建的tfidf_transformer变量现在看起来不再像变量了,因为下一行是tfidf4使用上述过程/对象创建一个新变量()?
我希望你们能理解我的困惑 - 我不知道如何搜索我的问题,因为我根本不知道我不知道的事情.我的问题是尖叫"Noobie",我希望这并不能阻止任何人认真对待我的问题.