小编Geo*_*eRF的帖子

如何在pandas python中将字符串转换为日期时间格式?

我在名为train的数据帧中有一个类型为string(object)的列I_DATE,如下所示.

I_DATE
28-03-2012  2:15:00 PM
28-03-2012  2:17:28 PM
28-03-2012  2:50:50 PM
Run Code Online (Sandbox Code Playgroud)

如何将I_DATE从字符串转换为数据时格式并指定输入字符串的格式.我看到了一些答案,但它不适用于AM/PM格式.

另外,如何根据pandas中的日期范围过滤行?

python datetime pandas

35
推荐指数
3
解决办法
7万
查看次数

如何从内存中删除多个pandas(python)数据帧以节省RAM?

我有许多数据帧作为预处理的一部分创建.由于我有6GB内存限制,我想从RAM中删除所有不必要的数据帧,以避免在scikit-learn中运行GRIDSEARCHCV时内存不足.

1)是否只有列出的功能,当前加载到内存中的所有数据帧?

我尝试了dir()但它提供了许多除dataframe之外的其他对象.

2)我创建了一个要删除的数据帧列表

del_df=[Gender_dummies,
 capsule_trans,
 col,
 concat_df_list,
 coup_CAPSULE_dummies]
Run Code Online (Sandbox Code Playgroud)

跑了

for i in del_df:
    del (i)
Run Code Online (Sandbox Code Playgroud)

但它没有删除数据帧.但是,像下面一样删除数据帧是从内存中删除数据帧.

del Gender_dummies
del col
Run Code Online (Sandbox Code Playgroud)

python ram memory-management dataframe pandas

34
推荐指数
3
解决办法
11万
查看次数

如何从Tensorflow中的tf.keras导入keras?

import tensorflow as tf
import tensorflow 

from tensorflow import keras
from keras.layers import Dense
Run Code Online (Sandbox Code Playgroud)

我收到以下错误

from keras.layers import Input, Dense
Traceback (most recent call last):

  File "<ipython-input-6-b5da44e251a5>", line 1, in <module>
    from keras.layers import Input, Dense

ModuleNotFoundError: No module named 'keras'
Run Code Online (Sandbox Code Playgroud)

我该如何解决这个问题?

注意:我使用的是Tensorflow 1.4版

python deep-learning keras tensorflow

32
推荐指数
5
解决办法
6万
查看次数

如何有效地找到PySpark数据帧中每列的Null和Nan值的计数?

import numpy as np

df = spark.createDataFrame(
    [(1, 1, None), (1, 2, float(5)), (1, 3, np.nan), (1, 4, None), (1, 5, float(10)), (1, 6, float('nan')), (1, 6, float('nan'))],
    ('session', "timestamp1", "id2"))
Run Code Online (Sandbox Code Playgroud)

预期产出

每列的数量为nan/null的数据帧

注意: 我在堆栈溢出中发现的先前问题仅检查null而不是nan.这就是为什么我创造了一个新问题.

我知道我可以在spark中使用isnull()函数来查找Spark列中的Null值的数量但是如何在Spark数据帧中找到Nan值?

apache-spark apache-spark-sql pyspark pyspark-sql

27
推荐指数
4
解决办法
6万
查看次数

如何在Python IDE中使用Google Colaboratory服务器作为python控制台?

Google Colaboratory目前默认为Jupyter笔记本提供了类似代码开发的界面.但我觉得在没有高级IDE功能的情况下在此接口上进行代码开发受到限制.

如果我可以使用Google Colaboratory作为远程python控制台服务器来在像Spyder或Pycharm这样的IDE中进行代码开发,那将会非常棒.我该怎么做呢?

python pycharm spyder jupyter-notebook google-colaboratory

21
推荐指数
1
解决办法
3698
查看次数

如何基于Pyspark中另一列的表达式评估有条件地替换列中的值?

import numpy as np

df = spark.createDataFrame(
    [(1, 1, None),
     (1, 2, float(5)),
     (1, 3, np.nan),
     (1, 4, None),
     (0, 5, float(10)),
     (1, 6, float('nan')),
     (0, 6, float('nan'))],
    ('session', "timestamp1", "id2"))
Run Code Online (Sandbox Code Playgroud)
+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
|      1|         1|null|
|      1|         2| 5.0|
|      1|         3| NaN|
|      1|         4|null|
|      0|         5|10.0|
|      1|         6| NaN|
|      0|         6| NaN|
+-------+----------+----+
Run Code Online (Sandbox Code Playgroud)

当session == 0时,如何用值999替换timestamp1列的值?

预期产出

+-------+----------+----+
|session|timestamp1| id2|
+-------+----------+----+
|      1|         1|null|
|      1|         2| 5.0|
|      1|         3| NaN| …
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark pyspark-sql

19
推荐指数
1
解决办法
3万
查看次数

Apache Spark和Apache Apex有什么区别?

Apache Apex - 是一个开源的企业级统一流和批处理平台.它在GE Predix平台中用于物联网.这两个平台之间的主要区别是什么?

问题

  1. 从数据科学的角度来看,它与Spark的不同之处是什么?
  2. Apache Apex是否提供Spark MLlib等功能?如果我们必须在Apache apex上构建可扩展的ML模型,该怎么做以及使用哪种语言?
  3. 数据科学家是否必须学习Java来构建可扩展的ML模型?它有像pyspark这样的python API吗?
  4. Apache Apex可以与Spark集成吗?我们可以在Apex之上使用Spark MLlib构建ML模型吗?

machine-learning stream-processing apache-spark pyspark apache-apex

16
推荐指数
1
解决办法
7868
查看次数

如何使用Python中的面向对象编程构建机器学习项目?

我观察到静态和机器学习科学家在使用Python(或其他语言)时通常不会遵循ML /数据科学项目的OOPS.

主要是因为在开发用于生产的ML代码时,缺乏对oops中最佳软件工程实践的理解.因为他们大多来自数学和统计学教育背景而不是计算机科学.

ML科学家开发临时原型代码和另一个软件团队使其生产就绪的日子在业界已经结束.

在此输入图像描述

问题

  1. 我们如何使用OOP为ML项目构建代码?
  2. 是否每个主要任务(如上图所示)如数据清理,特征转换,网格搜索,模型验证等都应该是一个单独的类?ML的推荐代码设计实践是什么?
  3. 任何好的github链接都有很好的代码可供参考(可能是一个写得很好的kaggle解决方案)
  4. 应每类像数据清洗有fit(),transform(),fit_transform()功能为每一个过程是怎样的remove_missing(),outlier_removal()?当这样做时,为什么scikit-learn BaseEstimator通常会被继承?
  5. 生产中ML项目的典型配置文件的结构应该是什么?

python oop machine-learning code-design data-science

15
推荐指数
1
解决办法
1498
查看次数

如何在Anaconda python发行版中安装Rodeo IDE?

我有一个64位的anaconda python发行版2.3,在Windows 7机器上安装了python 3.4.3.我搜索了关于在此之上安装rodeo但似乎"conda install rodeo"不会工作,所以我做了"pip install rodeo".

"pip install rodeo" gave me the following message "Successfully installed rodeo".
Run Code Online (Sandbox Code Playgroud)

但是当我在cmd中键入rodeo以启动rodeo时,它会给出一个错误说法

"failed to create process." 
Run Code Online (Sandbox Code Playgroud)

我无法开始牛仔竞技表演.

请指教.

谢谢

python ipython python-3.x anaconda rodeo

9
推荐指数
2
解决办法
1万
查看次数

如何从Spark DataFrame中删除列表中给出的多个列名?

我有一个动态列表,它是根据n的值创建的.

n = 3
drop_lst = ['a' + str(i) for i in range(n)]
df.drop(drop_lst)
Run Code Online (Sandbox Code Playgroud)

但上述情况并不奏效.

注意:

我的用例需要一个动态列表.

如果我只是在没有列表的情况下执行以下操作

df.drop('a0','a1','a2')
Run Code Online (Sandbox Code Playgroud)

如何使drop功能与列表一起使用?

Spark 2.2似乎没有这种功能.有没有办法让它不使用select()

dataframe apache-spark apache-spark-sql pyspark pyspark-sql

9
推荐指数
2
解决办法
1万
查看次数