小编Ama*_*don的帖子

Sklearn:有没有办法调试管道?

我已经为分类任务创建了一些管道,我想查看每个阶段存在/存储的信息(例如text_stats,ngram_tfidf).我怎么能这样做

pipeline = Pipeline([
    ('features',FeatureUnion([
                ('text_stats', Pipeline([
                            ('length',TextStats()),
                            ('vect', DictVectorizer())
                        ])),
                ('ngram_tfidf',Pipeline([
                            ('count_vect', CountVectorizer(tokenizer=tokenize_bigram_stem,stop_words=stopwords)),
                            ('tfidf', TfidfTransformer())
                        ]))
            ])),   
    ('classifier',MultinomialNB(alpha=0.1))
])
Run Code Online (Sandbox Code Playgroud)

python python-2.7 scikit-learn

10
推荐指数
2
解决办法
1899
查看次数

安装Mac OS X Sierra(Mac OS 10.12)后,Eclipse scala-ide无法启动

Eclipse退出出现意外错误。

进程:eclipse [1612]路径:
/Applications/Eclipse.app/Contents/MacOS/eclipse标识符:
scalaide.product.id版本:1.0.0(1.0.0.201605041117)代码类型:X86-64(本机)父进程:? ?? [1]负责人:eclipse [1612]用户ID:501

日期/时间:2016-11-05 08:25:36.767 +0530操作系统版本:
Mac OS X 10.12(16A323)报告版本:12匿名UUID:
756B4B0B-5772-3B0B-F072-86AA384C8784

睡眠/唤醒UUID:9458E0FB-8ADB-4FF1-AF46-A0CE9A6FC72D

开机后唤醒时间:6100秒开机后唤醒时间:3100秒

系统完整性保护:已启用

损坏的线程:0调度队列:com.apple.main-thread

异常类型:EXC_BAD_ACCESS(SIGSEGV)异常代码:
0x000000000000003c处的KERN_INVALID_ADDRESS异常注意:
EXC_CORPSE_NOTIFY

我安装了新的Mac Sierra,并安装了最新的scala-ide(scala-SDK-4.4.1-vfinal-2.11-macosx.cocoa.x86_64.zip),但在打开应用程序时出现上述错误。

eclipse scala scala-ide

5
推荐指数
1
解决办法
2708
查看次数

Spark:驱动程序日志显示“线程将排序数据溢出到磁盘”

有人可以帮助我了解 Spark 作业日志中出现以下几行的可能原因吗?

2018-06-11T05:35:46,181 - INFO [任务 328 的执行器任务启动工作线程:Logging$class@54] - TID 328 等待至少 1/2N 堆上执行池空闲 2018-06-11T05 :35:46,182 - INFO [任务 329 的执行程序任务启动工作线程:UnsafeExternalSorter@202] - 线程 151 将 50.0 MB 的排序数据溢出到磁盘(迄今为止 20 次)

2018-06-11T05:35:46,188 - INFO [任务 322 的执行器任务启动工作线程:UnsafeExternalSorter@202] - 线程 176 将 33.0 MB 的排序数据溢出到磁盘(到目前为止 27 次)

Spark程序工作:

  1. 查询数据库,缓存全表(缓存2GB)
  2. 按顺序选择 3 个国家/地区中的一个记录(丹麦、印度、新西兰)
  3. 将数据帧分成 500 块,并将其传递给映射函数,该函数在一块中创建一组记录的 json 并将其发送到搜索服务器
  4. map 应用于并行集合(Vector)来执行并行处理,我们可以并行发送到搜索服务器进行索引。

我是 Spark 的新手,所以请帮助我了解我应该寻找配置的哪一部分来阻止这种溢出。Spark版本是2.1.1

multithreading scala apache-spark

5
推荐指数
1
解决办法
1万
查看次数