小编mad*_*aks的帖子

不明白为什么(5 | -2)> 0为False(5或-2)> 0为True

这是一个非常琐碎的问题,我无法找到答案。

这是问题所在。我有以下数组:

vals = [-5, 2]
Run Code Online (Sandbox Code Playgroud)

我想检查是否val[0]val[1]大于0。如果任何一个是真的,那么我应该输出为True。

我立即想到使用。(vals[1] or vals[0]) > 0)但我发现那(5 | -2) > 0是False,哪里(5 or -2) > 0是True

任何澄清将不胜感激。

python conditional

18
推荐指数
3
解决办法
2258
查看次数

如何计算pyspark数据框中每个不同值的计数?

我有一个列充满了一堆状态的首字母作为字符串.我的目标是如何计算每个州的名单.

例如:(("TX":3),("NJ":2))当出现两次"TX"和时,应该是输出"NJ".

我是pyspark的新手,所以我很难解决这个问题.任何帮助将非常感激.

python dataframe pyspark

17
推荐指数
1
解决办法
2万
查看次数

Getting an error to install pyemd even though I just installed it

Here is the code:

from pyemd import emd

print("sentence 1:")
print(input_document_lower[0])
print("sentence 2:")
print(input_document_lower[1])
print("similarity:")
model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])
Run Code Online (Sandbox Code Playgroud)

Here's the error:

sentence 1:
incorrect batch number printed primary label pbn
sentence 2:
unconfirmed oos met vial washing qualification sample per 
similarity:

ImportErrorTraceback (most recent call last)
<ipython-input-201-50af089a2354> in <module>()
      4 print(input_document_lower[1])
      5 print("similarity:")
----> 6 model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])

C:\ProgramData\Anaconda2\lib\site-packages\gensim\models\word2vec.pyc in wmdistance(self, document1, document2)
   1308         Refer to the documentation for `gensim.models.KeyedVectors.wmdistance`
   1309         """
-> 1310         return self.wv.wmdistance(document1, document2)
   1311 
   1312     def most_similar_cosmul(self, positive=None, …
Run Code Online (Sandbox Code Playgroud)

python installation gensim word2vec

5
推荐指数
2
解决办法
3209
查看次数

如何从填充有datetime.time值的系列中提取小时,分钟和秒

数据:

0    09:30:38
1    13:40:27
2    18:05:24
3    04:58:08
4    09:00:09
Run Code Online (Sandbox Code Playgroud)

本质上,我想将其分为三列[小时,分钟,秒]

我已经尝试了以下代码,但似乎都无法正常工作:

train_sample.time.hour
AttributeError: 'Series' object has no attribute 'hour'

train_sample.time.dt.hour
AttributeError: Can only use .dt accessor with datetimelike values 

pd.DatetimeIndex(train_sample.time).hour
TypeError: <class 'datetime.time'> is not convertible to datetime
Run Code Online (Sandbox Code Playgroud)

这似乎很简单,但我无法弄清楚。任何帮助将非常感激。

python datetime series pandas

5
推荐指数
1
解决办法
5189
查看次数

Spark - 如何更改合并的镶木地板文件的名称

因此,当将 parquet 文件写入 s3 时,我可以使用以下代码更改目录名称:

spark_NCDS_df.coalesce(1).write.parquet(s3locationC1+"parquet")
Run Code Online (Sandbox Code Playgroud)

现在,当我输出此内容时,该目录中的内容如下:

在此输入图像描述

我想做两个改变:

  • 我可以更新该part-0000....snappy.parquet文件的文件名吗?

  • 我可以输出没有_SUCCESS,_committed_started文件的此文件吗?

我在网上找到的文档并不是很有帮助。

amazon-s3 apache-spark parquet databricks

5
推荐指数
1
解决办法
9329
查看次数

Pandas - 如果特定列的值为 1,则将行中的其他列替换为 0

这是一个示例数据框:

X Y Z 
1 0 1
0 1 0
1 1 1
Run Code Online (Sandbox Code Playgroud)

现在,这是我提出的规则:

  • X 保持原样
  • 如果 Y 等于 1,则将 X 中的相应值设置为 0
  • 如果 Z 等于 1,则将 X 和 Y 中的相应值设置为 0

最终的数据框应如下所示:

X Y Z 
0 0 1
0 1 0
0 0 1
Run Code Online (Sandbox Code Playgroud)

我对解决方案的第一个想法是:

df_null_list = ['X']

for i in ['Y', 'Z']:

    df[df[i] == 1][df_null_list] = 0

    df_null_list.append(i)
Run Code Online (Sandbox Code Playgroud)

当我这样做并在 y 轴上求和时,我开始得到 2 和 4 的值,这是没有意义的。注意,我指的是我在实际数据集上运行它的时候。

您有任何改进建议或替代解决方案吗?

python pandas

5
推荐指数
1
解决办法
1767
查看次数

unhashable类型:tensorflow中的'numpy.ndarray'错误

data = pd.read_excel("/Users/madhavthaker/Downloads/Reduced_Car_Data.xlsx")

train = np.random.rand(len(data)) < 0.8

data_train = data[train]
data_test = data[~train]


x_train = data_train.ix[:,0:3].values
y_train = data_train.ix[:,-1].values
x_test = data_test.ix[:,0:3].values
y_test = data_test.ix[:,-1].values

y_label = tf.placeholder(shape=[None,1], dtype=tf.float32, name='y_label')
x = tf.placeholder(shape=[None,3], dtype=tf.float32, name='x')
W = tf.Variable(tf.random_normal([3,1]), name='weights')
b = tf.Variable(tf.random_normal([1]), name='bias')
y = tf.matmul(x,W)  + b

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    summary_op = tf.summary.merge_all()
    #Fit all training data
    for epoch in range(1000):
        sess.run(train, feed_dict={x: x_train, y_label: y_train})

        # Display logs per epoch step
        if …
Run Code Online (Sandbox Code Playgroud)

python numpy linear-regression tensorflow

3
推荐指数
3
解决办法
3万
查看次数

按小时分组pandas数据帧的问题

首先,我的数据集如下所示

这里

我想做的是按pickup_datetime小时分组.我在这里找到了相关的问题,但由于某种原因,解决方案似乎不起作用.我在下面列出了我的尝试.

我首先开始这样做:

df["dropoff_datetime"] = pd.to_datetime(df["dropoff_datetime"])
df["pickup_datetime"] = pd.to_datetime(df["pickup_datetime"])

test = df.groupby(df.hour).sum()
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

AttributeError: 'DataFrame' object has no attribute 'hour'
Run Code Online (Sandbox Code Playgroud)

然后我尝试了这个:

test = df.groupby(df.dropoff_datetime.hour).sum()
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

AttributeError: 'Series' object has no attribute 'hour'
Run Code Online (Sandbox Code Playgroud)

我有点困惑,因为看起来我的情况与上面提到的问题相同.我不知道为什么我会收到错误.任何帮助将非常感激

python pandas pandas-groupby

3
推荐指数
1
解决办法
2499
查看次数

使用pandas groupby查找每个组中文本的平均长度

我正在使用莎士比亚语料库.

    act literature_type scene   scene_text  scene_title speaker title
0   1   Comedy  1   In delivering my son from me, I bury a second ...   Rousillon. The COUNT's palace.  COUNTESS    All's Well That Ends Well
1   1   Comedy  1   And I in going, madam, weep o'er my father's d...   Rousillon. The COUNT's palace.  BERTRAM All's Well That Ends Well
2   1   Comedy  1   You shall find of the king a husband, madam; y...   Rousillon. The COUNT's palace.  LAFEU   All's Well That Ends …
Run Code Online (Sandbox Code Playgroud)

python pandas pandas-groupby

2
推荐指数
1
解决办法
2860
查看次数

pyspark groupBy 与多个聚合(如熊猫)

我对 pyspark 很陌生,我正在尝试将我的 Pandas 代码转换为 pyspark。我遇到的一件事是聚合我的 groupby。

这是熊猫代码:

df_trx_m = train1.groupby('CUSTOMER_NUMBER')['trx'].agg(['mean', 'var'])
Run Code Online (Sandbox Code Playgroud)

我在 AnalyticsVidhya 上看到了这个例子,但我不确定如何将它应用到上面的代码中:

train.groupby('Age').agg({'Purchase': 'mean'}).show()
Output:
+-----+-----------------+
|  Age|    avg(Purchase)|
+-----+-----------------+
|51-55|9534.808030960236|
|46-50|9208.625697468327|
| 0-17|8933.464640444974|
|36-45|9331.350694917874|
|26-35|9252.690632869888|
|  55+|9336.280459449405|
|18-25|9169.663606261289|
+-----+-----------------+
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激

编辑:

这是另一个尝试:

from pyspark.sql.functions import avg, variance
train1.groupby("CUSTOMER_NUMBER")\
    .agg(
        avg('repatha_trx').alias("repatha_trx_avg"), 
        variance('repatha_trx').alias("repatha_trx_Var")
    )\
    .show(100)
Run Code Online (Sandbox Code Playgroud)

但这只是给了我一个空的数据框。

python pandas pyspark pyspark-sql

2
推荐指数
1
解决办法
4326
查看次数