小编mad*_*aks的帖子

from pyemd import emd

print("sentence 1:")
print(input_document_lower[0])
print("sentence 2:")
print(input_document_lower[1])
print("similarity:")
model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])

Run Code Online (Sandbox Code Playgroud)

Here's the error:

sentence 1:
incorrect batch number printed primary label pbn
sentence 2:
unconfirmed oos met vial washing qualification sample per 
similarity:

ImportErrorTraceback (most recent call last)
<ipython-input-201-50af089a2354> in <module>()
      4 print(input_document_lower[1])
      5 print("similarity:")
----> 6 model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])

C:\ProgramData\Anaconda2\lib\site-packages\gensim\models\word2vec.pyc in wmdistance(self, document1, document2)
   1308         Refer to the documentation for `gensim.models.KeyedVectors.wmdistance`
   1309         """
-> 1310         return self.wv.wmdistance(document1, document2)
   1311 
   1312     def most_similar_cosmul(self, positive=None, …

Run Code Online (Sandbox Code Playgroud)

python installation gensim word2vec

mad*_*aks

2017 11-04

5
推荐指数

2
解决办法

3209
查看次数

如何从填充有datetime.time值的系列中提取小时，分钟和秒

数据：

0    09:30:38
1    13:40:27
2    18:05:24
3    04:58:08
4    09:00:09

Run Code Online (Sandbox Code Playgroud)

本质上，我想将其分为三列[小时，分钟，秒]

我已经尝试了以下代码，但似乎都无法正常工作：

train_sample.time.hour
AttributeError: 'Series' object has no attribute 'hour'

train_sample.time.dt.hour
AttributeError: Can only use .dt accessor with datetimelike values 

pd.DatetimeIndex(train_sample.time).hour
TypeError: <class 'datetime.time'> is not convertible to datetime

Run Code Online (Sandbox Code Playgroud)

这似乎很简单，但我无法弄清楚。任何帮助将非常感激。

python datetime series pandas

mad*_*aks

2018 03-15

5
推荐指数

1
解决办法

5189
查看次数

Spark - 如何更改合并的镶木地板文件的名称

因此，当将 parquet 文件写入 s3 时，我可以使用以下代码更改目录名称：

spark_NCDS_df.coalesce(1).write.parquet(s3locationC1+"parquet")

Run Code Online (Sandbox Code Playgroud)

现在，当我输出此内容时，该目录中的内容如下：

我想做两个改变：

我可以更新该part-0000....snappy.parquet文件的文件名吗？
我可以输出没有_SUCCESS,_committed和_started文件的此文件吗？

我在网上找到的文档并不是很有帮助。

amazon-s3 apache-spark parquet databricks

mad*_*aks

lucky-day

5
推荐指数

1
解决办法

9329
查看次数

Pandas - 如果特定列的值为 1，则将行中的其他列替换为 0

这是一个示例数据框：

Run Code Online (Sandbox Code Playgroud)

现在，这是我提出的规则：

X 保持原样
如果 Y 等于 1，则将 X 中的相应值设置为 0
如果 Z 等于 1，则将 X 和 Y 中的相应值设置为 0

最终的数据框应如下所示：

Run Code Online (Sandbox Code Playgroud)

我对解决方案的第一个想法是：

df_null_list = ['X']

for i in ['Y', 'Z']:

    df[df[i] == 1][df_null_list] = 0

    df_null_list.append(i)

Run Code Online (Sandbox Code Playgroud)

当我这样做并在 y 轴上求和时，我开始得到 2 和 4 的值，这是没有意义的。注意，我指的是我在实际数据集上运行它的时候。

您有任何改进建议或替代解决方案吗？

python pandas

mad*_*aks

lucky-day

5
推荐指数

1
解决办法

1767
查看次数

unhashable类型:tensorflow中的'numpy.ndarray'错误

data = pd.read_excel("/Users/madhavthaker/Downloads/Reduced_Car_Data.xlsx")

train = np.random.rand(len(data)) < 0.8

data_train = data[train]
data_test = data[~train]


x_train = data_train.ix[:,0:3].values
y_train = data_train.ix[:,-1].values
x_test = data_test.ix[:,0:3].values
y_test = data_test.ix[:,-1].values

y_label = tf.placeholder(shape=[None,1], dtype=tf.float32, name='y_label')
x = tf.placeholder(shape=[None,3], dtype=tf.float32, name='x')
W = tf.Variable(tf.random_normal([3,1]), name='weights')
b = tf.Variable(tf.random_normal([1]), name='bias')
y = tf.matmul(x,W)  + b

init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    summary_op = tf.summary.merge_all()
    #Fit all training data
    for epoch in range(1000):
        sess.run(train, feed_dict={x: x_train, y_label: y_train})

        # Display logs per epoch step
        if …

Run Code Online (Sandbox Code Playgroud)

python numpy linear-regression tensorflow

mad*_*aks

2017 08-24

3
推荐指数

3
解决办法

3万
查看次数

按小时分组pandas数据帧的问题

首先,我的数据集如下所示

我想做的是按pickup_datetime小时分组.我在这里找到了相关的问题,但由于某种原因,解决方案似乎不起作用.我在下面列出了我的尝试.

我首先开始这样做:

df["dropoff_datetime"] = pd.to_datetime(df["dropoff_datetime"])
df["pickup_datetime"] = pd.to_datetime(df["pickup_datetime"])

test = df.groupby(df.hour).sum()

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

AttributeError: 'DataFrame' object has no attribute 'hour'

Run Code Online (Sandbox Code Playgroud)

然后我尝试了这个:

test = df.groupby(df.dropoff_datetime.hour).sum()

Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

AttributeError: 'Series' object has no attribute 'hour'

Run Code Online (Sandbox Code Playgroud)

我有点困惑,因为看起来我的情况与上面提到的问题相同.我不知道为什么我会收到错误.任何帮助将非常感激

python pandas pandas-groupby

mad*_*aks

lucky-day

3
推荐指数

1
解决办法

2499
查看次数

使用pandas groupby查找每个组中文本的平均长度

我正在使用莎士比亚语料库.

    act literature_type scene   scene_text  scene_title speaker title
0   1   Comedy  1   In delivering my son from me, I bury a second ...   Rousillon. The COUNT's palace.  COUNTESS    All's Well That Ends Well
1   1   Comedy  1   And I in going, madam, weep o'er my father's d...   Rousillon. The COUNT's palace.  BERTRAM All's Well That Ends Well
2   1   Comedy  1   You shall find of the king a husband, madam; y...   Rousillon. The COUNT's palace.  LAFEU   All's Well That Ends …

Run Code Online (Sandbox Code Playgroud)

python pandas pandas-groupby

mad*_*aks

lucky-day

2
推荐指数

1
解决办法

2860
查看次数

pyspark groupBy 与多个聚合（如熊猫）

我对 pyspark 很陌生，我正在尝试将我的 Pandas 代码转换为 pyspark。我遇到的一件事是聚合我的 groupby。

这是熊猫代码：

df_trx_m = train1.groupby('CUSTOMER_NUMBER')['trx'].agg(['mean', 'var'])

Run Code Online (Sandbox Code Playgroud)

我在 AnalyticsVidhya 上看到了这个例子，但我不确定如何将它应用到上面的代码中：

train.groupby('Age').agg({'Purchase': 'mean'}).show()
Output:
+-----+-----------------+
|  Age|    avg(Purchase)|
+-----+-----------------+
|51-55|9534.808030960236|
|46-50|9208.625697468327|
| 0-17|8933.464640444974|
|36-45|9331.350694917874|
|26-35|9252.690632869888|
|  55+|9336.280459449405|
|18-25|9169.663606261289|
+-----+-----------------+

Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激

编辑：

这是另一个尝试：

from pyspark.sql.functions import avg, variance
train1.groupby("CUSTOMER_NUMBER")\
    .agg(
        avg('repatha_trx').alias("repatha_trx_avg"), 
        variance('repatha_trx').alias("repatha_trx_Var")
    )\
    .show(100)

Run Code Online (Sandbox Code Playgroud)

但这只是给了我一个空的数据框。

python pandas pyspark pyspark-sql

mad*_*aks

2018 04-05

2
推荐指数

1
解决办法

4326
查看次数