我已经为分类任务创建了一些管道,我想查看每个阶段存在/存储的信息(例如text_stats,ngram_tfidf).我怎么能这样做
pipeline = Pipeline([
('features',FeatureUnion([
('text_stats', Pipeline([
('length',TextStats()),
('vect', DictVectorizer())
])),
('ngram_tfidf',Pipeline([
('count_vect', CountVectorizer(tokenizer=tokenize_bigram_stem,stop_words=stopwords)),
('tfidf', TfidfTransformer())
]))
])),
('classifier',MultinomialNB(alpha=0.1))
])
Run Code Online (Sandbox Code Playgroud) Eclipse退出出现意外错误。
进程:eclipse [1612]路径:
/Applications/Eclipse.app/Contents/MacOS/eclipse标识符:
scalaide.product.id版本:1.0.0(1.0.0.201605041117)代码类型:X86-64(本机)父进程:? ?? [1]负责人:eclipse [1612]用户ID:501日期/时间:2016-11-05 08:25:36.767 +0530操作系统版本:
Mac OS X 10.12(16A323)报告版本:12匿名UUID:
756B4B0B-5772-3B0B-F072-86AA384C8784睡眠/唤醒UUID:9458E0FB-8ADB-4FF1-AF46-A0CE9A6FC72D
开机后唤醒时间:6100秒开机后唤醒时间:3100秒
系统完整性保护:已启用
损坏的线程:0调度队列:com.apple.main-thread
异常类型:EXC_BAD_ACCESS(SIGSEGV)异常代码:
0x000000000000003c处的KERN_INVALID_ADDRESS异常注意:
EXC_CORPSE_NOTIFY
我安装了新的Mac Sierra,并安装了最新的scala-ide(scala-SDK-4.4.1-vfinal-2.11-macosx.cocoa.x86_64.zip),但在打开应用程序时出现上述错误。
有人可以帮助我了解 Spark 作业日志中出现以下几行的可能原因吗?
2018-06-11T05:35:46,181 - INFO [任务 328 的执行器任务启动工作线程:Logging$class@54] - TID 328 等待至少 1/2N 堆上执行池空闲 2018-06-11T05 :35:46,182 - INFO [任务 329 的执行程序任务启动工作线程:UnsafeExternalSorter@202] - 线程 151 将 50.0 MB 的排序数据溢出到磁盘(迄今为止 20 次)
2018-06-11T05:35:46,188 - INFO [任务 322 的执行器任务启动工作线程:UnsafeExternalSorter@202] - 线程 176 将 33.0 MB 的排序数据溢出到磁盘(到目前为止 27 次)
Spark程序工作:
我是 Spark 的新手,所以请帮助我了解我应该寻找配置的哪一部分来阻止这种溢出。Spark版本是2.1.1