我在名为train的数据帧中有一个类型为string(object)的列I_DATE,如下所示.
I_DATE
28-03-2012 2:15:00 PM
28-03-2012 2:17:28 PM
28-03-2012 2:50:50 PM
Run Code Online (Sandbox Code Playgroud)
如何将I_DATE从字符串转换为数据时格式并指定输入字符串的格式.我看到了一些答案,但它不适用于AM/PM格式.
另外,如何根据pandas中的日期范围过滤行?
我有许多数据帧作为预处理的一部分创建.由于我有6GB内存限制,我想从RAM中删除所有不必要的数据帧,以避免在scikit-learn中运行GRIDSEARCHCV时内存不足.
1)是否只有列出的功能,当前加载到内存中的所有数据帧?
我尝试了dir()但它提供了许多除dataframe之外的其他对象.
2)我创建了一个要删除的数据帧列表
del_df=[Gender_dummies,
capsule_trans,
col,
concat_df_list,
coup_CAPSULE_dummies]
Run Code Online (Sandbox Code Playgroud)
跑了
for i in del_df:
del (i)
Run Code Online (Sandbox Code Playgroud)
但它没有删除数据帧.但是,像下面一样删除数据帧是从内存中删除数据帧.
del Gender_dummies
del col
Run Code Online (Sandbox Code Playgroud) import tensorflow as tf
import tensorflow
from tensorflow import keras
from keras.layers import Dense
Run Code Online (Sandbox Code Playgroud)
我收到以下错误
from keras.layers import Input, Dense
Traceback (most recent call last):
File "<ipython-input-6-b5da44e251a5>", line 1, in <module>
from keras.layers import Input, Dense
ModuleNotFoundError: No module named 'keras'
Run Code Online (Sandbox Code Playgroud)
我该如何解决这个问题?
注意:我使用的是Tensorflow 1.4版
import numpy as np
df = spark.createDataFrame(
[(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
('session', "timestamp1", "id2"))
Run Code Online (Sandbox Code Playgroud)
预期产出
每列的数量为nan/null的数据帧
注意: 我在堆栈溢出中发现的先前问题仅检查null而不是nan.这就是为什么我创造了一个新问题.
我知道我可以在spark中使用isnull()函数来查找Spark列中的Null值的数量但是如何在Spark数据帧中找到Nan值?
Google Colaboratory目前默认为Jupyter笔记本提供了类似代码开发的界面.但我觉得在没有高级IDE功能的情况下在此接口上进行代码开发受到限制.
如果我可以使用Google Colaboratory作为远程python控制台服务器来在像Spyder或Pycharm这样的IDE中进行代码开发,那将会非常棒.我该怎么做呢?
import numpy as np
df = spark.createDataFrame(
[(1, 1, None),
(1, 2, float(5)),
(1, 3, np.nan),
(1, 4, None),
(0, 5, float(10)),
(1, 6, float('nan')),
(0, 6, float('nan'))],
('session', "timestamp1", "id2"))
Run Code Online (Sandbox Code Playgroud)
+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
| 1| 1|null|
| 1| 2| 5.0|
| 1| 3| NaN|
| 1| 4|null|
| 0| 5|10.0|
| 1| 6| NaN|
| 0| 6| NaN|
+-------+----------+----+
Run Code Online (Sandbox Code Playgroud)
当session == 0时,如何用值999替换timestamp1列的值?
预期产出
+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
| 1| 1|null|
| 1| 2| 5.0|
| 1| 3| NaN| …
Run Code Online (Sandbox Code Playgroud) Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么?
问题
machine-learning stream-processing apache-spark pyspark apache-apex
我观察到静态和机器学习科学家在使用Python(或其他语言)时通常不会遵循ML /数据科学项目的OOPS.
主要是因为在开发用于生产的ML代码时,缺乏对oops中最佳软件工程实践的理解.因为他们大多来自数学和统计学教育背景而不是计算机科学.
ML科学家开发临时原型代码和另一个软件团队使其生产就绪的日子在业界已经结束.
问题
fit()
,transform()
,fit_transform()
功能为每一个过程是怎样的remove_missing()
,outlier_removal()
?当这样做时,为什么scikit-learn BaseEstimator
通常会被继承?我有一个64位的anaconda python发行版2.3,在Windows 7机器上安装了python 3.4.3.我搜索了关于在此之上安装rodeo但似乎"conda install rodeo"不会工作,所以我做了"pip install rodeo".
"pip install rodeo" gave me the following message "Successfully installed rodeo".
Run Code Online (Sandbox Code Playgroud)
但是当我在cmd中键入rodeo以启动rodeo时,它会给出一个错误说法
"failed to create process."
Run Code Online (Sandbox Code Playgroud)
我无法开始牛仔竞技表演.
请指教.
谢谢
我有一个动态列表,它是根据n的值创建的.
n = 3
drop_lst = ['a' + str(i) for i in range(n)]
df.drop(drop_lst)
Run Code Online (Sandbox Code Playgroud)
但上述情况并不奏效.
注意:
我的用例需要一个动态列表.
如果我只是在没有列表的情况下执行以下操作
df.drop('a0','a1','a2')
Run Code Online (Sandbox Code Playgroud)
如何使drop功能与列表一起使用?
Spark 2.2似乎没有这种功能.有没有办法让它不使用select()
?
python ×6
apache-spark ×4
pyspark ×4
pyspark-sql ×3
dataframe ×2
pandas ×2
anaconda ×1
apache-apex ×1
code-design ×1
data-science ×1
datetime ×1
ipython ×1
keras ×1
oop ×1
pycharm ×1
python-3.x ×1
ram ×1
rodeo ×1
spyder ×1
tensorflow ×1