小编Que*_*atl的帖子

Pyspark:使用字符串格式的正则表达式过滤数据帧?

我已经阅读了几篇关于使用"like"运算符来过滤火花数据帧的帖子,条件是包含一个字符串/表达式,但是想知道以下是否是在所需条件下使用%s的"最佳实践"如下:

input_path = <s3_location_str>
my_expr = "Arizona.*hot"  # a regex expression
dx = sqlContext.read.parquet(input_path)  # "keyword" is a field in dx

# is the following correct?
substr = "'%%%s%%'" %my_keyword  # escape % via %% to get "%"
dk = dx.filter("keyword like %s" %substr)

# dk should contain rows with keyword values such as "Arizona is hot."
Run Code Online (Sandbox Code Playgroud)

注意

我正在尝试获取包含表达式my_keyword的dx中的所有行.否则,对于完全匹配,我们不需要周围百分号'%'.

regex apache-spark-sql pyspark spark-dataframe pyspark-sql

13
推荐指数
3
解决办法
2万
查看次数

将日期转换为float以在Pandas数据框上进行线性回归

似乎对于OLS线性回归在Pandas中运行良好,参数必须是浮点数.我开始使用以下形式的csv(称为"gameAct.csv"):

date, city, players, sales

2014-04-28,London,111,1091.28

2014-04-29,London,100,1100.44

2014-04-28,Paris,87,1001.33

...
Run Code Online (Sandbox Code Playgroud)

我想对销售取决于日期的方式进行线性回归(随着时间的推移,销售如何移动?).我的代码下面的问题似乎是日期不是浮点值.我将非常感谢如何解决Pandas中的索引问题.

我目前的(非工作,但编译代码):

import pandas as pd

from pandas import DataFrame, Series

import statsmodels.formula.api as sm

df = pd.read_csv('gameAct.csv')

df.columns = ['date', 'city', 'players', 'sales']

city_data = df[df['city'] == 'London']

result = sm.ols(formula = 'sales ~ date', data = city_data).fit()
Run Code Online (Sandbox Code Playgroud)

当我改变城市价值时,我得到R ^ 2 = 1的结果,这是错误的.我也试图index_col = 0, parse_dates == True'定义dataframe df,但没有成功.

我怀疑有更好的方法来读取这些csv文件以执行日期的基本回归,以及更一般的时间序列分析.感谢帮助,示例和资源!

注意,使用上面的代码,如果我将日期索引(对于给定的城市)转换为数组,则此数组中的值具有以下形式:

'\xef\xbb\xbf2014-04-28'
Run Code Online (Sandbox Code Playgroud)

如何对所有非销售参数进行AIC分析?(例如,结果可能是销售在日期和城市中线性最依赖).

python time-series pandas

12
推荐指数
1
解决办法
2万
查看次数

pyspark:isin vs join

在给定的值列表中过滤pyspark中的数据帧的一般最佳实践是什么?特别:

根据给定值列表的大小,那么关于运行时何时最好使用isinvs inner joinvs broadcast

这个问题是Pig中以下问题的火花类比:

Pig:按加载列表进行高效过滤

附加背景:

Pyspark功能齐全

apache-spark pyspark spark-dataframe

12
推荐指数
2
解决办法
3055
查看次数

CNN 注意力/激活图

通过卷积神经网络查找图像的哪些部分对图像分类贡献最大的常用技术是什么?

一般来说,假设我们有 0 到 1 之间的浮点值作为整体的二维矩阵。每个矩阵都与一个标签(单标签、多类)相关联,目标是通过(Keras)2D CNN 进行分类。

我正在尝试寻找方法来提取对分类贡献最大的行/列的相关子序列。

两个例子:

https://github.com/jacobgil/keras-cam

https://github.com/tdeboissiere/VGG16CAM-keras

其他着眼于 Keras 的示例/资源将不胜感激。

请注意,我的数据集不是实际图像,因此在这种情况下使用 ImageDataGenerator 的方法可能不直接适用。

deep-learning keras

5
推荐指数
1
解决办法
2962
查看次数

python crontab和路径

我有一个兄弟姐妹的Python驱动程序和库脚本:

/home/mydir/pythonProjs/
Run Code Online (Sandbox Code Playgroud)
  • driver.py

  • lib.py

driver.py我有线:

from lib import method1

从Linux上的命令行获得以下成功:

python /home/mydir/pythonProjs/driver.py
Run Code Online (Sandbox Code Playgroud)

但是当我在crontab中尝试以下内容时:

10 1 * * * export PYTHONPATH=~/mydir/pythonProjs; python /home/mydir/pythonProjs/driver.py

我收到错误:

ImportError: No module named lib.method1
Run Code Online (Sandbox Code Playgroud)

我还尝试将crontab命令中的路径设置更改为完全限定的路径/home/mydir/pythonProjs,省略'export',并且还尝试编写.sh文件(使用必要的#!bin/bash ...)

我有一个主要问题和一个后续问题:主要:解决问题的最佳方法是什么?跟进:cron的路径访问背后的理念是什么?

在我投票过快之前,我会提到我已阅读但未成功(或正确解析)以下内容: - 我在哪里可以设置crontab将使用的环境变量? - 运行Python的Crontab问题 - http://pythonadventures.wordpress.com/2012/03/31/calling-a-python-script-from-crontab/

python cron environment-variables python-2.7

4
推荐指数
1
解决办法
6688
查看次数

如何将字符串的二进制表示形式转换回Python中的原始字符串?

我无法找到以下问题的答案:从字符串开始,将其转换为二进制表示形式.你如何在Python中找回原始字符串?

例:

a = 'hi us'
b = ''.join(format(ord(c), '08b') for c in a)
Run Code Online (Sandbox Code Playgroud)

然后 b = 0110100001101001001000000111010101110011

现在我想在Python 2.x中获得'hi us'.例如,该网站完成了任务:http: //string-functions.com/binary-string.aspx

我已经看到了几个Java的答案,但没有运气实现到Python.我也试过b.decode(),但不知道在这种情况下我应该使用哪种编码.

python decode binary-data

2
推荐指数
1
解决办法
415
查看次数