Arn*_*rne 3 python classification scikit-learn text-classification
首先,手头的问题。我正在为一个scikit-learn类编写一个包装器,并且在使用正确的语法时遇到了问题。我想要实现的是fit_transform函数的覆盖,它只稍微改变输入,然后super用新参数调用它的-method:
from sklearn.feature_extraction.text import TfidfVectorizer
class TidfVectorizerWrapper(TfidfVectorizer):
def __init__(self):
TfidfVectorizer.__init__(self) # is this even necessary?
def fit_transform(self, x, y=None, **fit_params):
x = [content.split('\t')[0] for content in x] # filtering the input
return TfidfVectorizer.fit_transform(self, x, y, fit_params)
# this is the critical part, my IDE tells me for
# fit_params: 'unexpected arguments'
Run Code Online (Sandbox Code Playgroud)
程序到处崩溃,从 开始Multiprocessing exception,并没有真正告诉我任何有用的信息。我该如何正确地做到这一点?
附加信息:我需要以这种方式包装它的原因是因为我sklearn.pipeline.FeatureUnion在将它们放入sklearn.pipeline.Pipeline. 这样做的结果是,我只能在所有特征提取器中提供单个数据集——但不同的提取器需要不同的数据。我的解决方案是以易于分离的格式提供数据,并在不同的提取器中过滤不同的部分。如果这个问题有更好的解决方案,我也很高兴听到。
编辑 1:添加**解压 dict 似乎没有改变任何东西:

编辑 2:我刚刚解决了剩下的问题——我需要删除构造函数重载。显然,通过尝试调用父构造函数,希望正确启动所有实例变量,我做了完全相反的事情。我的包装器不知道它可以期待什么样的参数。一旦我删除了多余的电话,一切都很顺利。
您忘记解包fit_params作为 a 传递的内容,dict而您想将其作为keyword arguments需要解包操作符的a 传递**。
from sklearn.feature_extraction.text import TfidfVectorizer
class TidfVectorizerWrapper(TfidfVectorizer):
def fit_transform(self, x, y=None, **fit_params):
x = [content.split('\t')[0] for content in x] # filtering the input
return TfidfVectorizer.fit_transform(self, x, y, **fit_params)
Run Code Online (Sandbox Code Playgroud)
另一件事是直接调用TfidfVectorizer's fit_transform,您可以通过super方法调用重载版本
from sklearn.feature_extraction.text import TfidfVectorizer
class TidfVectorizerWrapper(TfidfVectorizer):
def fit_transform(self, x, y=None, **fit_params):
x = [content.split('\t')[0] for content in x] # filtering the input
return super(TidfVectorizerWrapper, self).fit_transform(x, y, **fit_params)
Run Code Online (Sandbox Code Playgroud)
要了解它,请查看以下示例
def foo1(**kargs):
print kargs
def foo2(**kargs):
foo1(**kargs)
print 'foo2'
def foo3(**kargs):
foo1(kargs)
print 'foo3'
foo1(a=1, b=2)
Run Code Online (Sandbox Code Playgroud)
它打印字典 {'a': 1, 'b': 2}
foo2(a=1, b=2)
Run Code Online (Sandbox Code Playgroud)
打印字典和foo2,但是
foo3(a=1, b=2)
Run Code Online (Sandbox Code Playgroud)
引发错误,因为我们向 发送了一个与字典相等的位置参数foo1,它不接受这样的事情。然而我们可以做
def foo4(**kargs):
foo1(x=kargs)
print 'foo4'
Run Code Online (Sandbox Code Playgroud)
工作正常,但打印了一个新字典 {'x': {'a': 1, 'b': 2}}
| 归档时间: |
|
| 查看次数: |
860 次 |
| 最近记录: |