小编ben*_*ben的帖子

我们可以在pandas.core.groupby.SeriesGroupBy对象中看到组数据

我们可以检查pandas.core.groupby.SeriesGroupBy对象中的数据吗?

python pandas

8
推荐指数
1
解决办法
6095
查看次数

写入 Spark 数据帧时将 null 替换为空字符串

null将 Spark 数据帧写入文件时,有没有办法用空字符串替换列中的值?

样本数据:

+----------------+------------------+
|   UNIQUE_MEM_ID|              DATE|
+----------------+------------------+
|            1156|              null|
|            3787|        2016-07-05|
|            1156|              null|
|            5064|              null|
|            5832|              null|
|            3787|              null|
|            5506|              null|
|            7538|              null|
|            7436|              null|
|            5091|              null|
|            8673|              null|
|            2631|              null|
|            8561|              null|
|            3516|              null|
|            1156|              null|
|            5832|              null|
|            2631|        2016-07-07|
Run Code Online (Sandbox Code Playgroud)

python null apache-spark pyspark

5
推荐指数
2
解决办法
2万
查看次数

如何从Pyspark RDD中删除空行

我想在RDD中删除几行空行.我该怎么做?

我尝试了以下但它不起作用.我仍然得到空行

json_cp_rdd = xform_rdd.map(lambda (key, value): get_cp_json_with_planid(key, value)).filter(
            lambda x: x is not None).filter(
            lambda x: x is not '')
Run Code Online (Sandbox Code Playgroud)

[你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你) '',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,u',u',u',u',u',u',u',u'[{"PLAN_ID":"d2031aed-175f-4346-af31-9d05bfd4ea3a"," CostTotalInvEOPAmount":0.0,"St oreCount":0,"WeekEndingData":"2017-07-08","UnitTotalInvBOPQuantity":0.0,"PriceStatus":1,"UnitOnOrderQuantity":null,"CostTotalInvBOPAmount":0.0,"RetailSalesAmount":0.0,"UnitCostAmount" :0.0,"CostReceiptAmount":0.0,"CostSalesAmount":0.0,"UnitSalesQuantity":0.0,"UnitReceiptQuantity":0.0,"UnitTotalInvEOPQuantity":0.0,"CostOnOrderAmount":null}]',u',u'',你,'你',你',你',你',你',你'']

python apache-spark rdd pyspark

4
推荐指数
2
解决办法
1万
查看次数

pyspark中根据时间间隔对数据进行分组

我正在尝试对数据进行分组和聚合。我根据日期和其他字段对其进行了分组,因为它非常简单。现在我也尝试根据时间间隔对其进行分组[Server_Time]

EventID AccessReason    Source  Server_Date Server_Time
847495004   Granted ORSB_GND_GYM_IN 10/1/2016   7:25:52 AM
847506432   Granted ORSB_GND_GYM_IN 10/1/2016   8:53:38 AM
847512725   Granted ORSB_GND_GYM_IN 10/1/2016   10:18:50 AM
847512768   Granted ORSB_GND_GYM_IN 10/1/2016   10:19:32 AM
847513357   Granted ORSB_GND_GYM_OUT 10/1/2016  10:25:36 AM
847513614   Granted ORSB_GND_GYM_IN 10/1/2016   10:28:08 AM
847515838   Granted ORSB_GND_GYM_OUT 10/1/2016  10:57:41 AM
847522522   Granted ORSB_GND_GYM_IN 10/1/2016   11:57:10 AM
Run Code Online (Sandbox Code Playgroud)

例如。我需要汇总每小时的事件计数。从数据中我们可以看到,在 10 -11 小时内,源“ORSB_GND_GYM_IN”的总计数为 3,“ORSB_GND_GYM_OUT”的总计数为 2。我如何在 pyspark 中执行此操作

apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
6749
查看次数

将PySpark数据框列类型转换为字符串并替换方括号

我需要将PySpark df列类型从数组转换为字符串,还要删除方括号。这是数据框的架构。需要处理的列是CurrencyCode和TicketAmount

>>> plan_queryDF.printSchema()
Run Code Online (Sandbox Code Playgroud)
>>> plan_queryDF.printSchema()
Run Code Online (Sandbox Code Playgroud)

来自数据框的样本数据

root
 |-- event_type: string (nullable = true)
 |-- publishedDate: string (nullable = true)
 |-- plannedCustomerChoiceID: string (nullable = true)
 |-- assortedCustomerChoiceID: string (nullable = true)
 |-- CurrencyCode: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- TicketAmount: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- currentPlan: boolean (nullable = true)
 |-- originalPlan: boolean (nullable = true)
 |-- globalId: string (nullable = true)
 |-- PlanJsonData: string (nullable …
Run Code Online (Sandbox Code Playgroud)

python apache-spark-sql pyspark

3
推荐指数
1
解决办法
2万
查看次数

提取表从 sql 模式文件创建语句

我有一个 sql 模式文件,其中包含存储过程、索引和创建表语句。如何解析文件并提取所有创建表语句。创建表语句未定义为单行。其结构如下。

CREATE TABLE [CriticalZone] (
    [Id]       INT            IDENTITY (1, 1) NOT NULL,
    [SiteId]   NVARCHAR (100) NOT NULL,
    [ZoneId]   NVARCHAR (255) NOT NULL,
    [ZoneName] NVARCHAR (255) NULL,
    PRIMARY KEY CLUSTERED ([SiteId] ASC, [ZoneId] ASC)
);
Run Code Online (Sandbox Code Playgroud)

请建议。

python regex sql bash

3
推荐指数
1
解决办法
537
查看次数

如何在Spark中处理数据框列名称中的空格

我从df中注册了一个tmp表,该df列标题中有空格。如何在通过sqlContext使用sql查询时提取列。我试图使用反勾号,但是它不起作用

df1 =  sqlContext.sql("""select Company, Sector, Industry, `Altman Z-score as Z_Score` from tmp1 """)
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark

3
推荐指数
2
解决办法
4793
查看次数

如何将变量重定向到文件但不在屏幕上显示

我有这个小代码来做一些数据处理.

#!/bin/sh
export DIR=`pwd`
if [ -d "$DIR" ] 
then
    for f in "$DIR"/HistoryData*; do
    if find "$f" -newermt 2017-03-13 ! -newermt 2017-03-14 
        then
            echo "$f" >> file
        fi
        done
else
    echo "$DIR does not exists"
fi
for f in $(cat < $DIR/file);do
        awk '/CO2/ && !/VAV/{ print $0 }' "$f" >> HistoryData_CO2
    done
Run Code Online (Sandbox Code Playgroud)

在线echo "$f" >> file我试图将变量写入文件,但它也显示在屏幕上的值.如何在控制台上抑制值并只写入文件

bash shell

3
推荐指数
1
解决办法
43
查看次数

如何将时间戳列拆分为日期和时间

我想将时间戳记值拆分为日期和时间。

例如:

1/20/2016 3:20:30 PM
1/20/2016 3:20:31 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:33 PM
1/20/2016 3:20:34 PM
1/20/2016 3:20:34 PM
Run Code Online (Sandbox Code Playgroud)

需要分为2016年1月20日和下午3:20:30

使用SQL溢漏功能,我无法正确处理

split_col = pyspark.sql.functions.split(df['ServerTime'], ' ')
df_date = df.withColumn('Date', split_col.getItem(0))
df_time = df.withColumn('Time', split_col.getItem(1))
Run Code Online (Sandbox Code Playgroud)

有帮助吗????

pyspark

2
推荐指数
2
解决办法
5799
查看次数

在 pyspark 数据框中添加具有另一列最大值的新列

在 pyspark df 上需要一些帮助。我正在尝试将具有另一列最大值的新列附加到现有数据帧,但出现以下错误。这就是我正在做的事情。

df1 = df.withColumn('WEEK_START_DATE', df.agg(f.max('DATE')))



error:
AttributeError: 'DataFrame' object has no attribute '_get_object_id'
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark

2
推荐指数
1
解决办法
5388
查看次数

从 Date 中获取周开始日期和周结束日期

我需要从给定日期获取周开始日期和周结束日期,考虑到一周从星期日开始到星期六结束。

我提到了这篇文章,但这需要星期一作为一周的开始日。spark中是否有任何内置功能可以解决这个问题?

apache-spark-sql pyspark

2
推荐指数
1
解决办法
2058
查看次数

用最少的数字用法计算总和

如何使用最小的幻数集来获得总和?幻数是只有0和1的组合的整数,例如0, 1, 10, 11, 100, 101, 110, 111.....等等.

例子:

23 requires 3 magic numbers - 11 + 11 + 1
120 requires 2 magic numbers -  110 + 10
Run Code Online (Sandbox Code Playgroud)

我尝试了什么:

我的想法是从最接近总和的幻数开始,但这不会导致最小数量的幻数.

例如,在总和120的情况下,最接近120的幻数是111,这使我得到9.然而,要添加缺失的9,所需的幻数总数为10 [111 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1]

但是,只需2个幻数即可达到120 - [ 110 + 10] - 这意味着我的逻辑不能产生正确的结果.


问题已经得到解答,我只是想改进这个问题.

algorithm

-18
推荐指数
1
解决办法
395
查看次数

标签 统计

pyspark ×8

apache-spark ×5

python ×5

apache-spark-sql ×4

bash ×2

algorithm ×1

null ×1

pandas ×1

rdd ×1

regex ×1

shell ×1

sql ×1