这是一个非常琐碎的问题,我无法找到答案。
这是问题所在。我有以下数组:
vals = [-5, 2]
Run Code Online (Sandbox Code Playgroud)
我想检查是否val[0]或val[1]大于0。如果任何一个是真的,那么我应该输出为True。
我立即想到使用。(vals[1] or vals[0]) > 0)但我发现那(5 | -2) > 0是False,哪里(5 or -2) > 0是True
任何澄清将不胜感激。
我有一个列充满了一堆状态的首字母作为字符串.我的目标是如何计算每个州的名单.
例如:(("TX":3),("NJ":2))当出现两次"TX"和时,应该是输出"NJ".
我是pyspark的新手,所以我很难解决这个问题.任何帮助将非常感激.
Here is the code:
from pyemd import emd
print("sentence 1:")
print(input_document_lower[0])
print("sentence 2:")
print(input_document_lower[1])
print("similarity:")
model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])
Run Code Online (Sandbox Code Playgroud)
Here's the error:
sentence 1:
incorrect batch number printed primary label pbn
sentence 2:
unconfirmed oos met vial washing qualification sample per
similarity:
ImportErrorTraceback (most recent call last)
<ipython-input-201-50af089a2354> in <module>()
4 print(input_document_lower[1])
5 print("similarity:")
----> 6 model_w2v.wmdistance(input_document_lower[0], input_document_lower[1])
C:\ProgramData\Anaconda2\lib\site-packages\gensim\models\word2vec.pyc in wmdistance(self, document1, document2)
1308 Refer to the documentation for `gensim.models.KeyedVectors.wmdistance`
1309 """
-> 1310 return self.wv.wmdistance(document1, document2)
1311
1312 def most_similar_cosmul(self, positive=None, …Run Code Online (Sandbox Code Playgroud) 数据:
0 09:30:38
1 13:40:27
2 18:05:24
3 04:58:08
4 09:00:09
Run Code Online (Sandbox Code Playgroud)
本质上,我想将其分为三列[小时,分钟,秒]
我已经尝试了以下代码,但似乎都无法正常工作:
train_sample.time.hour
AttributeError: 'Series' object has no attribute 'hour'
train_sample.time.dt.hour
AttributeError: Can only use .dt accessor with datetimelike values
pd.DatetimeIndex(train_sample.time).hour
TypeError: <class 'datetime.time'> is not convertible to datetime
Run Code Online (Sandbox Code Playgroud)
这似乎很简单,但我无法弄清楚。任何帮助将非常感激。
因此,当将 parquet 文件写入 s3 时,我可以使用以下代码更改目录名称:
spark_NCDS_df.coalesce(1).write.parquet(s3locationC1+"parquet")
Run Code Online (Sandbox Code Playgroud)
现在,当我输出此内容时,该目录中的内容如下:
我想做两个改变:
我可以更新该part-0000....snappy.parquet文件的文件名吗?
我可以输出没有_SUCCESS,_committed和_started文件的此文件吗?
我在网上找到的文档并不是很有帮助。
这是一个示例数据框:
X Y Z
1 0 1
0 1 0
1 1 1
Run Code Online (Sandbox Code Playgroud)
现在,这是我提出的规则:
最终的数据框应如下所示:
X Y Z
0 0 1
0 1 0
0 0 1
Run Code Online (Sandbox Code Playgroud)
我对解决方案的第一个想法是:
df_null_list = ['X']
for i in ['Y', 'Z']:
df[df[i] == 1][df_null_list] = 0
df_null_list.append(i)
Run Code Online (Sandbox Code Playgroud)
当我这样做并在 y 轴上求和时,我开始得到 2 和 4 的值,这是没有意义的。注意,我指的是我在实际数据集上运行它的时候。
您有任何改进建议或替代解决方案吗?
data = pd.read_excel("/Users/madhavthaker/Downloads/Reduced_Car_Data.xlsx")
train = np.random.rand(len(data)) < 0.8
data_train = data[train]
data_test = data[~train]
x_train = data_train.ix[:,0:3].values
y_train = data_train.ix[:,-1].values
x_test = data_test.ix[:,0:3].values
y_test = data_test.ix[:,-1].values
y_label = tf.placeholder(shape=[None,1], dtype=tf.float32, name='y_label')
x = tf.placeholder(shape=[None,3], dtype=tf.float32, name='x')
W = tf.Variable(tf.random_normal([3,1]), name='weights')
b = tf.Variable(tf.random_normal([1]), name='bias')
y = tf.matmul(x,W) + b
init = tf.global_variables_initializer()
with tf.Session() as sess:
sess.run(init)
summary_op = tf.summary.merge_all()
#Fit all training data
for epoch in range(1000):
sess.run(train, feed_dict={x: x_train, y_label: y_train})
# Display logs per epoch step
if …Run Code Online (Sandbox Code Playgroud) 首先,我的数据集如下所示
我想做的是按pickup_datetime小时分组.我在这里找到了相关的问题,但由于某种原因,解决方案似乎不起作用.我在下面列出了我的尝试.
我首先开始这样做:
df["dropoff_datetime"] = pd.to_datetime(df["dropoff_datetime"])
df["pickup_datetime"] = pd.to_datetime(df["pickup_datetime"])
test = df.groupby(df.hour).sum()
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
AttributeError: 'DataFrame' object has no attribute 'hour'
Run Code Online (Sandbox Code Playgroud)
然后我尝试了这个:
test = df.groupby(df.dropoff_datetime.hour).sum()
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
AttributeError: 'Series' object has no attribute 'hour'
Run Code Online (Sandbox Code Playgroud)
我有点困惑,因为看起来我的情况与上面提到的问题相同.我不知道为什么我会收到错误.任何帮助将非常感激
我正在使用莎士比亚语料库.
act literature_type scene scene_text scene_title speaker title
0 1 Comedy 1 In delivering my son from me, I bury a second ... Rousillon. The COUNT's palace. COUNTESS All's Well That Ends Well
1 1 Comedy 1 And I in going, madam, weep o'er my father's d... Rousillon. The COUNT's palace. BERTRAM All's Well That Ends Well
2 1 Comedy 1 You shall find of the king a husband, madam; y... Rousillon. The COUNT's palace. LAFEU All's Well That Ends …Run Code Online (Sandbox Code Playgroud) 我对 pyspark 很陌生,我正在尝试将我的 Pandas 代码转换为 pyspark。我遇到的一件事是聚合我的 groupby。
这是熊猫代码:
df_trx_m = train1.groupby('CUSTOMER_NUMBER')['trx'].agg(['mean', 'var'])
Run Code Online (Sandbox Code Playgroud)
我在 AnalyticsVidhya 上看到了这个例子,但我不确定如何将它应用到上面的代码中:
train.groupby('Age').agg({'Purchase': 'mean'}).show()
Output:
+-----+-----------------+
| Age| avg(Purchase)|
+-----+-----------------+
|51-55|9534.808030960236|
|46-50|9208.625697468327|
| 0-17|8933.464640444974|
|36-45|9331.350694917874|
|26-35|9252.690632869888|
| 55+|9336.280459449405|
|18-25|9169.663606261289|
+-----+-----------------+
Run Code Online (Sandbox Code Playgroud)
任何帮助将不胜感激
编辑:
这是另一个尝试:
from pyspark.sql.functions import avg, variance
train1.groupby("CUSTOMER_NUMBER")\
.agg(
avg('repatha_trx').alias("repatha_trx_avg"),
variance('repatha_trx').alias("repatha_trx_Var")
)\
.show(100)
Run Code Online (Sandbox Code Playgroud)
但这只是给了我一个空的数据框。
python ×9
pandas ×5
pyspark ×2
amazon-s3 ×1
apache-spark ×1
conditional ×1
databricks ×1
dataframe ×1
datetime ×1
gensim ×1
installation ×1
numpy ×1
parquet ×1
pyspark-sql ×1
series ×1
tensorflow ×1
word2vec ×1