小编use*_*013的帖子

如何使saveAsTextFile NOT分割输出到多个文件?

在Spark中使用Scala时,每当我使用结果转储结果时saveAsTextFile,它似乎将输出分成多个部分.我只是将一个参数(路径)传递给它.

val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap)
year.saveAsTextFile("year")
Run Code Online (Sandbox Code Playgroud)
  1. 输出数量是否与其使用的减速器数量相对应?
  2. 这是否意味着输出被压缩了?
  3. 我知道我可以使用bash将输出组合在一起,但是有一个选项可以将输出存储在单个文本文件中,而不会拆分吗?我查看了API文档,但对此并没有太多说明.

scala apache-spark

74
推荐指数
3
解决办法
9万
查看次数

绘制逻辑回归的决策边界

我正在实施逻辑回归.我设法从中获取概率,并且能够预测2级分类任务.

我的问题是:

对于我的最终模型,我有权重和训练数据.有2个功能,所以我的重量是一个2行的向量.

我如何绘制这个?我看过这篇文章,但我不太明白答案.我需要等高线图吗?

matplotlib scikit-learn logistic-regression

15
推荐指数
2
解决办法
3万
查看次数

nginx和uwsgi服务器中的uwsgi模块之间的区别

我是linux开发的新手.我对我阅读的文档感到有点困惑.我的最终目标是托管一个简单的python支持的Web服务,该服务将检查传入的有效负载,并将其转发到其他服务器.这应该是python中少于30行的代码.

我打算用nginx来提供python文件.根据我的研究,我还需要一个python web框架.我选择和uwsgi一起去.我很困惑.我需要哪一个?一个nginx uwsgi模块,还是uwsgi服务器?我不想把django放在这个简单的目的上.

nginx的文件提到,

不要将uwsgi协议与uWSGI服务器混淆(说uwsgi协议)

那么,这是否意味着,我不需要单独安装uwsgi服务器?我只是安装nginx,并开始配置?我正在使用nginx 1.4.4

有人可以分享一步一步的配置程序,如何使用nginx配置uwsgi,以及示例python代码(也许你好世界)?我可以配置nginx很好,但我不知道如何使它服务python页面.我能找到的所有文档都涉及将django放在首位.

python django nginx uwsgi

10
推荐指数
1
解决办法
3569
查看次数

logstash从android接收日志?或者这是弹性搜索?

阅读logstash提供的文档后,我仍然有点困惑.我打算写一个Android应用程序,我想记录应用程序的活动.日志将通过网络发送.是logstash不是正确的解决方案?因为它需要在生成日志的系统上安装"代理".

我想要一个可以存储来自应用程序活动的日志的系统,但它还需要能够将收集的日志导出到纯文本文件中.我知道logstash可以输出到elasticsearch,但我不确定它是否可以同时导出到纯文本文件.或者这是ElasticSearch应该做的任务?

非常感谢您提供的任何输入

elasticsearch logstash

9
推荐指数
1
解决办法
5964
查看次数

pycharm代码自动完成仅在python控制台中工作,但在python文件上不起作用

我正在使用pycharm IDE和几个库,如scikit-learn和pandas.出于某种原因,如果我创建一个新的python文件并执行:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plot
pd.   #no auto complete here
Run Code Online (Sandbox Code Playgroud)

我输入pd之后.自动完成似乎不起作用.我一无所获.但是,如果我在PyCharm中运行python控制台,并执行类似的操作,控制台会弹出一个自动完成窗口,显示pd的所有成员..

如何获得自动完成功能来处理主python文件?

python autocomplete pycharm pandas scikit-learn

9
推荐指数
1
解决办法
3151
查看次数

如何在不终止实例的情况下停止计算引擎实例?

我使用debian作为源图像玩Google Compute Engine.据我所知,只要实例正在运行,我将按小时收费,无论是否支持.shutdown -h命令显然将实例置于终止模式,我将不得不再次创建实例.

我的问题是,如何在不终止虚拟机的情况下关闭虚拟机?这是一个选择吗?

谷歌说:https: //developers.google.com/compute/docs/troubleshooting 如果你使用sudo shutdown或sudo poweroff关闭你的实例,它相当于终止它.无法"冻结"实例并在以后重新启动它.如果选择将其关闭,则必须重新创建实例.当一个实例从内部关闭时,它将进入TERMINATED状态但仍会出现在API中(例如列出实例时).要从列表中删除它,您必须显式删除该实例.但是,TERMINATED实例的正常运行时间不计费.

google-compute-engine

8
推荐指数
4
解决办法
8255
查看次数

计算spark中数字列的第一个四分位数

我是火花/斯卡拉的新手.这是我正在做的计算csv文件的第一个四分位数

val column= sc.textFile("test.txt").map(_.split(",")(2)).flatMap(_.split(",")).map((_.toDouble))
val total = column.count.toDouble
val upper=(total+1)/4
val upper2= scala.math.ceil(upper).toInt
Run Code Online (Sandbox Code Playgroud)

除了添加键值对之外,我不确定如何对列进行排序.我需要的是在四分位数排序之后取最后两个值.但我不得不创建一个关键值对.

val quartiles = column.map((_,1)).sortByKey(true).take(upper2)
val first_quartile =0
if(upper % upper.toInt >0){
   first_quartile = quartiles(upper.toInt-1) 
}else{
   first_quartile = (quartiles(upper2-1) +(quartiles(upper2-2))/2
}
Run Code Online (Sandbox Code Playgroud)

这有效,但它会给我留下一个烦人的键值对.我如何恢复到只有1列而不是2列(例如键值对)

scala apache-spark

7
推荐指数
1
解决办法
5430
查看次数

logstash可以同时处理多个输出吗?

我对logstash和弹性搜索非常新.我试图在elasticsearch和平面文件中存储日志文件.我知道logstash支持两种输出.但它们是否同时处理?还是通过工作定期完成?

logstash

6
推荐指数
1
解决办法
2万
查看次数

在lucene 4.7.0中找不到standard.StandardAnalyzer

我是lucene的新手.我正在尝试这里的教程http://www.lucenetutorial.com/lucene-in-5-minutes.html

该网站正在导入:

import org.apache.lucene.analysis.standard.StandardAnalyzer;
Run Code Online (Sandbox Code Playgroud)

但是,在我的intellij上,我在分析包中找不到任何标准.所以,我真的不能使用StandardAnalyzer.

我需要使用不同的罐子吗?我正在使用的罐子是

lucene-core-4.7.0.jar
Run Code Online (Sandbox Code Playgroud)

我从哪个进口的

lucene-4.7.0/core
Run Code Online (Sandbox Code Playgroud)

目录.

我在这里错过了什么?

java lucene intellij-idea standardanalyzer

6
推荐指数
1
解决办法
3976
查看次数

Spark并行处理列

我一直在玩Spark,我设法让它来处理我的数据.我的数据由平面分隔的文本文件组成,包含50列和大约2千万行.我有scala脚本来处理每一列.

在并行处理方面,我知道RDD操作在多个节点上运行.因此,每次处理列时,它们都会并行处理,但列本身会按顺序处理.

一个简单的例子:如果我的数据是5列文本分隔文件,每列包含文本,我想为每列做单词计数.我会做:

for(i <- 0 until 4){
   data.map(_.split("\t",-1)(i)).map((_,1)).reduce(_+_)
}
Run Code Online (Sandbox Code Playgroud)

尽管每列的操作是并行运行的,但列本身是按顺序处理的(我知道的措辞不好.抱歉!).换句话说,在第1列完成后处理第2列.在第1列和第2列完成后处理第3列,依此类推.

我的问题是:无论如何一次处理多个列?如果你知道一种方法,教程,你介意与我分享吗?

谢谢!!

scala apache-spark rdd

6
推荐指数
1
解决办法
2736
查看次数