我正在使用Python解决某些文本文档的二进制分类问题并实现该scikit-learn库,并且希望尝试使用不同的模型来比较和对比结果-主要是使用朴素贝叶斯分类器,具有K-fold CV的SVM和CV = 5。鉴于后两种模型都使用,因此我很难将所有方法组合到一个管道中gridSearchCV()。由于并发性问题,我无法在一个实现中运行多个管道,因此我需要使用一个管道来实现所有不同的模型。
这是我到目前为止所拥有的
# pipeline for naive bayes
naive_bayes_pipeline = Pipeline([
('bow_transformer', CountVectorizer(analyzer=split_into_lemmas, stop_words='english')),
('tf_idf', TfidfTransformer()),
('classifier', MultinomialNB())
])
# accessing and using the pipelines
naive_bayes = naive_bayes_pipeline.fit(train_data['data'], train_data['gender'])
# pipeline for SVM
svm_pipeline = Pipeline([
('bow_transformer', CountVectorizer(analyzer=split_into_lemmas, stop_words='english')),
('tf_idf', TfidfTransformer()),
('classifier', SVC())
])
param_svm = [
{'classifier__C': [1, 10], 'classifier__kernel': ['linear']},
{'classifier__C': [1, 10], 'classifier__gamma': [0.001, 0.0001], 'classifier__kernel': ['rbf']},
]
grid_svm_skf = GridSearchCV(
svm_pipeline, # pipeline from above
param_grid=param_svm, # parameters …Run Code Online (Sandbox Code Playgroud) 我正在尝试在 OCaml 中逐行读取文件。文件中的每一行代表一个我想要解析的字符串,采用解析工具所需的正确格式。我将每一行保存在列表结构中。
我发现解析列表每个元素中包含的字符串时出现问题。我使用 OCamllex 和 Menhir 作为解析工具。
如果我尝试print_string在每个元素上打印列表的内容,我会得到正确的文件内容。
如果我尝试将string程序中定义的 a 传递给函数,那么我会得到所需的输出。
但是,如果我尝试解析刚刚从文件中读取的字符串,则会收到错误:Fatal error: exception Failure ("lexing empty token")
注意:所有这些都已针对同一字符串进行了测试。
这是代码片段:
let parse_mon m = Parser.monitor Lexer.token (from_string m)
let parse_and_print (mon: string)=
print_endline (print_monitor (parse_mon mon) 0)
let get_file_contents file =
let m_list = ref [] in
let read_contents = open_in file in
try
while true; do
m_list := input_line read_contents :: !m_list
done; !m_list
with End_of_file -> close_in read_contents; List.rev !m_list
let rec …Run Code Online (Sandbox Code Playgroud)