我们可以检查pandas.core.groupby.SeriesGroupBy对象中的数据吗?
null将 Spark 数据帧写入文件时,有没有办法用空字符串替换列中的值?
样本数据:
+----------------+------------------+
| UNIQUE_MEM_ID| DATE|
+----------------+------------------+
| 1156| null|
| 3787| 2016-07-05|
| 1156| null|
| 5064| null|
| 5832| null|
| 3787| null|
| 5506| null|
| 7538| null|
| 7436| null|
| 5091| null|
| 8673| null|
| 2631| null|
| 8561| null|
| 3516| null|
| 1156| null|
| 5832| null|
| 2631| 2016-07-07|
Run Code Online (Sandbox Code Playgroud) 我想在RDD中删除几行空行.我该怎么做?
我尝试了以下但它不起作用.我仍然得到空行
json_cp_rdd = xform_rdd.map(lambda (key, value): get_cp_json_with_planid(key, value)).filter(
lambda x: x is not None).filter(
lambda x: x is not '')
Run Code Online (Sandbox Code Playgroud)
[你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你) '',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你,你'',你',你',你',你',你',你',你',你',你',你',你',你''' ,u',u',u',u',u',u',u',u'[{"PLAN_ID":"d2031aed-175f-4346-af31-9d05bfd4ea3a"," CostTotalInvEOPAmount":0.0,"St oreCount":0,"WeekEndingData":"2017-07-08","UnitTotalInvBOPQuantity":0.0,"PriceStatus":1,"UnitOnOrderQuantity":null,"CostTotalInvBOPAmount":0.0,"RetailSalesAmount":0.0,"UnitCostAmount" :0.0,"CostReceiptAmount":0.0,"CostSalesAmount":0.0,"UnitSalesQuantity":0.0,"UnitReceiptQuantity":0.0,"UnitTotalInvEOPQuantity":0.0,"CostOnOrderAmount":null}]',u',u'',你,'你',你',你',你',你',你'']
我正在尝试对数据进行分组和聚合。我根据日期和其他字段对其进行了分组,因为它非常简单。现在我也尝试根据时间间隔对其进行分组[Server_Time]
EventID AccessReason Source Server_Date Server_Time
847495004 Granted ORSB_GND_GYM_IN 10/1/2016 7:25:52 AM
847506432 Granted ORSB_GND_GYM_IN 10/1/2016 8:53:38 AM
847512725 Granted ORSB_GND_GYM_IN 10/1/2016 10:18:50 AM
847512768 Granted ORSB_GND_GYM_IN 10/1/2016 10:19:32 AM
847513357 Granted ORSB_GND_GYM_OUT 10/1/2016 10:25:36 AM
847513614 Granted ORSB_GND_GYM_IN 10/1/2016 10:28:08 AM
847515838 Granted ORSB_GND_GYM_OUT 10/1/2016 10:57:41 AM
847522522 Granted ORSB_GND_GYM_IN 10/1/2016 11:57:10 AM
Run Code Online (Sandbox Code Playgroud)
例如。我需要汇总每小时的事件计数。从数据中我们可以看到,在 10 -11 小时内,源“ORSB_GND_GYM_IN”的总计数为 3,“ORSB_GND_GYM_OUT”的总计数为 2。我如何在 pyspark 中执行此操作
我需要将PySpark df列类型从数组转换为字符串,还要删除方括号。这是数据框的架构。需要处理的列是CurrencyCode和TicketAmount
>>> plan_queryDF.printSchema()
Run Code Online (Sandbox Code Playgroud)
>>> plan_queryDF.printSchema()
Run Code Online (Sandbox Code Playgroud)
来自数据框的样本数据
root
|-- event_type: string (nullable = true)
|-- publishedDate: string (nullable = true)
|-- plannedCustomerChoiceID: string (nullable = true)
|-- assortedCustomerChoiceID: string (nullable = true)
|-- CurrencyCode: array (nullable = true)
| |-- element: string (containsNull = true)
|-- TicketAmount: array (nullable = true)
| |-- element: string (containsNull = true)
|-- currentPlan: boolean (nullable = true)
|-- originalPlan: boolean (nullable = true)
|-- globalId: string (nullable = true)
|-- PlanJsonData: string (nullable …Run Code Online (Sandbox Code Playgroud) 我有一个 sql 模式文件,其中包含存储过程、索引和创建表语句。如何解析文件并提取所有创建表语句。创建表语句未定义为单行。其结构如下。
CREATE TABLE [CriticalZone] (
[Id] INT IDENTITY (1, 1) NOT NULL,
[SiteId] NVARCHAR (100) NOT NULL,
[ZoneId] NVARCHAR (255) NOT NULL,
[ZoneName] NVARCHAR (255) NULL,
PRIMARY KEY CLUSTERED ([SiteId] ASC, [ZoneId] ASC)
);
Run Code Online (Sandbox Code Playgroud)
请建议。
我从df中注册了一个tmp表,该df列标题中有空格。如何在通过sqlContext使用sql查询时提取列。我试图使用反勾号,但是它不起作用
df1 = sqlContext.sql("""select Company, Sector, Industry, `Altman Z-score as Z_Score` from tmp1 """)
Run Code Online (Sandbox Code Playgroud) 我有这个小代码来做一些数据处理.
#!/bin/sh
export DIR=`pwd`
if [ -d "$DIR" ]
then
for f in "$DIR"/HistoryData*; do
if find "$f" -newermt 2017-03-13 ! -newermt 2017-03-14
then
echo "$f" >> file
fi
done
else
echo "$DIR does not exists"
fi
for f in $(cat < $DIR/file);do
awk '/CO2/ && !/VAV/{ print $0 }' "$f" >> HistoryData_CO2
done
Run Code Online (Sandbox Code Playgroud)
在线echo "$f" >> file我试图将变量写入文件,但它也显示在屏幕上的值.如何在控制台上抑制值并只写入文件
我想将时间戳记值拆分为日期和时间。
例如:
1/20/2016 3:20:30 PM
1/20/2016 3:20:31 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:32 PM
1/20/2016 3:20:33 PM
1/20/2016 3:20:34 PM
1/20/2016 3:20:34 PM
Run Code Online (Sandbox Code Playgroud)
需要分为2016年1月20日和下午3:20:30
使用SQL溢漏功能,我无法正确处理
split_col = pyspark.sql.functions.split(df['ServerTime'], ' ')
df_date = df.withColumn('Date', split_col.getItem(0))
df_time = df.withColumn('Time', split_col.getItem(1))
Run Code Online (Sandbox Code Playgroud)
有帮助吗????
在 pyspark df 上需要一些帮助。我正在尝试将具有另一列最大值的新列附加到现有数据帧,但出现以下错误。这就是我正在做的事情。
df1 = df.withColumn('WEEK_START_DATE', df.agg(f.max('DATE')))
error:
AttributeError: 'DataFrame' object has no attribute '_get_object_id'
Run Code Online (Sandbox Code Playgroud) 我需要从给定日期获取周开始日期和周结束日期,考虑到一周从星期日开始到星期六结束。
我提到了这篇文章,但这需要星期一作为一周的开始日。spark中是否有任何内置功能可以解决这个问题?
如何使用最小的幻数集来获得总和?幻数是只有0和1的组合的整数,例如0, 1, 10, 11, 100, 101, 110, 111.....等等.
例子:
23 requires 3 magic numbers - 11 + 11 + 1
120 requires 2 magic numbers - 110 + 10
Run Code Online (Sandbox Code Playgroud)
我尝试了什么:
我的想法是从最接近总和的幻数开始,但这不会导致最小数量的幻数.
例如,在总和120的情况下,最接近120的幻数是111,这使我得到9.然而,要添加缺失的9,所需的幻数总数为10 [111 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1]
但是,只需2个幻数即可达到120 - [ 110 + 10] - 这意味着我的逻辑不能产生正确的结果.
问题已经得到解答,我只是想改进这个问题.