use*_*524 6 python nlp classification machine-learning scikit-learn
我正在解决多标签分类问题.我有大约6百万行要处理,这些行是巨大的文本块.它们在单独的列中标记有多个标记.
关于scikit库可以帮助我扩展代码的任何建议.我在其中使用One-vs-Rest和SVM.但它们的规模不超过90-100k行.
classifier = Pipeline([
('vectorizer', CountVectorizer(min_df=1)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC()))])
Run Code Online (Sandbox Code Playgroud)
随着列数的增加,SVM 的扩展性很好,但随着行数的增加,支持向量机的扩展性较差,因为它们本质上是在学习哪些行构成支持向量。我认为这是对 SVM 的常见抱怨,但大多数人不明白为什么,因为它们通常可以很好地适应最合理的数据集。
| 归档时间: |
|
| 查看次数: |
1971 次 |
| 最近记录: |