我在 csv 文件中的每一行都有一个数组,如下所示:
\n\n[['thxx'], ['too', 'late', 'now', 'dumbass'], ['you', '\xe2\x80\x98', 're', 'so', 'dumb', '?', '?'], ['thxxx'], ['i', '\xe2\x80\x98', 'd', 'be', 'fucked']]\nRun Code Online (Sandbox Code Playgroud)\n\n当我尝试将其传递给词形还原器时,如下所示:
\n\nfrom nltk.stem import WordNetLemmatizer\nlemmatized_words = [WordNetLemmatizer.lemmatize(word) for word in tokened_text]\nprint(lemmatized_words)\nRun Code Online (Sandbox Code Playgroud)\n\n我收到以下错误:
\n\nTypeError: lemmatize() missing 1 required positional argument: 'word'\nRun Code Online (Sandbox Code Playgroud)\n\n这是为什么?
\n\n作为一个附带问题:在将其传递给矢量化之前,我需要执行此操作吗?我正在构建一个机器学习模型,并在 sci kit learn 中看到了 CountVectorizer 函数,但找不到任何它预先进行词形还原等的信息。
\n