小编lte*_*e__的帖子

Spark - SELECT WHERE还是过滤?

选择where子句和过滤Spark有什么区别?
是否存在一个比另一个更合适的用例?

我什么时候用

DataFrame newdf = df.select(df.col("*")).where(df.col("somecol").leq(10))
Run Code Online (Sandbox Code Playgroud)

什么时候

DataFrame newdf = df.select(df.col("*")).filter("somecol <= 10")
Run Code Online (Sandbox Code Playgroud)

更合适?

apache-spark apache-spark-sql

33
推荐指数
2
解决办法
9万
查看次数

Python/Scikit Lear - 无法处理多类和连续的混合

我正在尝试将SGDRegressor放入我的数据中,然后检查准确性.拟合工作正常,但是预测与原始目标数据的数据类型(?)不同,我得到了错误

ValueError: Can't handle mix of multiclass and continuous
Run Code Online (Sandbox Code Playgroud)

当调用print "Accuracy:", ms.accuracy_score(y_test,predictions).

数据看起来像这样(只有20万+行):

Product_id/Date/product_group1/Price/Net price/Purchase price/Hour/Quantity/product_group2
0   107 12/31/2012  10  300 236 220 10  1   108
Run Code Online (Sandbox Code Playgroud)

代码如下:

from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.linear_model import SGDRegressor
import numpy as np
from sklearn import metrics as ms

msk = np.random.rand(len(beers)) < 0.8

train = beers[msk]
test = beers[~msk]

X = train [['Price', 'Net price', 'Purchase price','Hour','Product_id','product_group2']]
y = train[['Quantity']]
y = y.as_matrix().ravel()

X_test = test [['Price', …
Run Code Online (Sandbox Code Playgroud)

python scikit-learn

17
推荐指数
2
解决办法
4万
查看次数

Spark - 使用数据框语法进行HAVING分组?

在没有sql/hiveContext的情况下在Spark中使用groupby-having的语法是什么?我知道我能做到

DataFrame df = some_df
df.registreTempTable("df");    
df1 = sqlContext.sql("SELECT * FROM df GROUP BY col1 HAVING some stuff")
Run Code Online (Sandbox Code Playgroud)

但是我怎么用这样的语法来做呢

df.select(df.col("*")).groupBy(df.col("col1")).having("some stuff")
Run Code Online (Sandbox Code Playgroud)

.having()似乎不存在.

java sql dataframe apache-spark apache-spark-sql

16
推荐指数
2
解决办法
1万
查看次数

Spark DataFrame - 选择n个随机行

我有一个包含数千条记录的数据框,我想随机选择1000行到另一个数据框进行演示.我怎么能用Java做到这一点?

谢谢!

java dataframe apache-spark

13
推荐指数
3
解决办法
2万
查看次数

SKLearn MinMaxScaler - 仅限比例特定列

我想使用MinMaxScaler扩展Pandas dataFrame中的一些(但不是全部)列.我该怎么做?

rescale pandas scikit-learn

12
推荐指数
2
解决办法
9600
查看次数

媒体查询没有工作!重要

除非我一直使用,否则我的媒体查询不会覆盖常规CSS !important.错误是什么?在这里你可以看到带有!importants 的CSS .如果我删除它们,样式会回到常规CSS,即使屏幕小于850px.能否请你帮忙?

@media all and (min-width: 200px) and (max-width: 850px) {
        html body {
        position: absolute;
        height: 100%;
        width: 100% !important;
        margin: 0 auto;
        text-align:center;
        }
        #header {
        background-color: white;
        position: fixed;
        top: 0px;
        box-shadow: 0 3px 6px rgba(0,0,0,0.16), 0 3px 6px rgba(0,0,0,0.23);
        width: 95%;
        height: 120px;
        z-index:9999;
        }
        #header-inner{
        width: 100% !important;
        float: right;
        }
        div#title   {
        margin: 0px !important;
        position: absolute; 
        width: 100% !important;
        height: 70px;
        background: url('mobillogo.png'); 
        background-repeat: no-repeat;
        background-size:  auto 70px; …
Run Code Online (Sandbox Code Playgroud)

css media-queries

9
推荐指数
1
解决办法
4726
查看次数

Windows上的Spark - winutils究竟是什么?我们为什么需要它?

我很好奇!据我所知,HDFS需要运行datanode进程,这就是为什么它只能在服务器上运行.Spark可以在本地运行,但需要winutils.exe这是Hadoop的一个组件.但究竟是做什么的呢?怎么样,我不能在Windows上运行Hadoop,但我可以运行基于Hadoop构建的Spark?

hadoop apache-spark

8
推荐指数
2
解决办法
5156
查看次数

Spark(JAVA) - 数据帧组有多个聚合?

我正在尝试使用JAVA在Spark上编写一个groupBy.在SQL中,这看起来像

SELECT id, count(id) as count, max(date) maxdate
FROM table
GROUP BY id;
Run Code Online (Sandbox Code Playgroud)

但是Spark/JAVA样式与此查询的等价物是什么?假设变量table是一个数据帧,以查看与SQL查询的关系.我想的是:

table = table.select(table.col("id"), (table.col("id").count()).as("count"), (table.col("date").max()).as("maxdate")).groupby("id")
Run Code Online (Sandbox Code Playgroud)

这显然是不正确的,因为你不能使用聚合功能,如.count.max在列,只有dataframes.那么如何在Spark JAVA中完成这项工作?

谢谢!

java apache-spark

8
推荐指数
1
解决办法
5467
查看次数

Spark - 用列分割int?

我试图用一个列来划分常量.我知道我能做到

df.col("col1").divide(90)
Run Code Online (Sandbox Code Playgroud)

但我该怎么办(90).divide(df.col("col1"))(显然这是不正确的).谢谢!

java dataframe apache-spark apache-spark-sql

7
推荐指数
1
解决办法
7777
查看次数

Spark - 没有用于方案的FileSystem:https,无法从Amazon S3加载文件

我正在尝试通过以下方式从Amazon S3存储桶加载一些数据:

SparkConf sparkConf = new SparkConf().setAppName("Importer");
JavaSparkContext ctx = new JavaSparkContext(sparkConf);
HiveContext sqlContext = new HiveContext(ctx.sc());

DataFrame magento = sqlContext.read().json("https://s3.eu-central-1.amazonaws.com/*/*.json");
Run Code Online (Sandbox Code Playgroud)

然而,最后一行会引发错误:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: https
Run Code Online (Sandbox Code Playgroud)

同一条线已经在另一个项目中工作,我错过了什么?我在Hortonworks CentOS VM上运行Spark.

java amazon-s3 apache-spark

7
推荐指数
1
解决办法
4639
查看次数