小编Pin*_*ts0的帖子

使用Python填写所有0值的空白数据框列

我有一个Python数据框，其中包含名为“ avg_snow”的列，当我将表输出到CSV文件时，该列完全为空白。

我想用值0（数据类型float）填充空白行。我已经尝试了以下方法，但是它给了我一个错误。

merged_left_1 = merged_left_1['avg_snow'].replace('', 0, inplace = True)

Run Code Online (Sandbox Code Playgroud)

这是我收到的错误消息：

TypeError：“ NoneType”对象不可下标

python replace nan dataframe

Pin*_*ts0

2017 01-08

4
推荐指数

1
解决办法

1万
查看次数

Python 3：NameError：未定义名称“sklearn”

我正在尝试运行 Elastic Net 回归，但收到以下错误：NameError: name 'sklearn' is not defined... 非常感谢任何帮助！

    # ElasticNet Regression 

    from sklearn import linear_model
    import statsmodels.api as sm

    ElasticNet = sklearn.linear_model.ElasticNet() # create a lasso instance
    ElasticNet.fit(X_train, y_train) # fit data

    # print(lasso.coef_)
    # print (lasso.intercept_) # print out the coefficients

    print ("R^2 for training set:"),
    print (ElasticNet.score(X_train, y_train))

    print ('-'*50)

    print ("R^2 for test set:"),
    print (ElasticNet.score(X_test, y_test))

Run Code Online (Sandbox Code Playgroud)

python regression scikit-learn

Pin*_*ts0

lucky-day

4
推荐指数

1
解决办法

2万
查看次数

如何在 Jupyter Notebook Python 3.6.2 中关闭行号

我尝试使用此代码关闭线路：

IPython.Cell.options_default.cm_config.lineNumbers = false;

Run Code Online (Sandbox Code Playgroud)

我也试过

IPython.Cell.options_default.cm_config.lineNumbers = False;

但我收到以下错误：未定义名称“IPython”

python formatting numbers jupyter

Pin*_*ts0

lucky-day

4
推荐指数

1
解决办法

4915
查看次数

对缺失日期的行重新采样，并在除一列之外的所有列中向前填充值

我目前有以下示例数据框：

No  FlNo    DATE        Loc    Type
20  1826    6/1/2017    AAA    O
20  1112    6/4/2017    BBB    O
20  1234    6/6/2017    CCC    O
20  43      6/7/2017    DDD    O
20  1840    6/8/2017    EEE    O

Run Code Online (Sandbox Code Playgroud)

我想在彼此顶部的两行中填写缺失的日期。我还想用顶行中的值填充非日期列的值，但将“类型”列留空以填充行。

请查看所需的输出：

No  FlNo    DATE        Loc    Type 
20  1826    6/1/2017    AAA    O
20  1826    6/2/2017    AAA
20  1826    6/3/2017    AAA
20  1112    6/4/2017    BBB    O
20  1112    6/5/2017    BBB
20  1234    6/6/2017    CCC    O
20  43      6/7/2017    DDD    O
20  1840    6/8/2017    EEE    O

Run Code Online (Sandbox Code Playgroud)

我在 Google 和 stackoverflow 上到处搜索，但没有找到任何日期填写熊猫数据框的答案。

python conditional date fill pandas

Pin*_*ts0

2018 03-30

4
推荐指数

1
解决办法

2127
查看次数

Pyspark：如何将十天添加到现有日期列

我在Pyspark中有一个数据框，其中的日期列称为“ report_date”。

我想创建一个名为“ report_date_10”的新列，该列将添加到原始report_date列中为10天。

下面是我尝试的代码：

df_dc["report_date_10"] = df_dc["report_date"] + timedelta(days=10)

Run Code Online (Sandbox Code Playgroud)

这是我得到的错误：

AttributeError：“ datetime.timedelta”对象没有属性“ _get_object_id”

救命！谢谢

date add days pyspark

Pin*_*ts0

lucky-day

4
推荐指数

1
解决办法

8961
查看次数

Python：为列表中的所有元素添加相同的前缀

假设我有以下 Python 列表：

['7831-0', nan, '3165-0', '7831-0', '7831-1']

Run Code Online (Sandbox Code Playgroud)

我想向上面列表中的每个元素添加相同的前缀（'ADD_'。我还想从列表中删除 nan。我想要的输出列表如下：

list = ['ADD_7831-0', 'ADD_3165-0', 'ADD_7831-0', 'ADD_7831-1']

Run Code Online (Sandbox Code Playgroud)

我尝试了以下代码：

prefix_ADD = 'ADD_'

new_list = [prefix_ADD + x for x in list]

Run Code Online (Sandbox Code Playgroud)

但我收到以下错误：

TypeError: must be str, not float

Run Code Online (Sandbox Code Playgroud)

python loops list prefix addition

Pin*_*ts0

2019 04-25

4
推荐指数

1
解决办法

2万
查看次数

Python：如何计算当前年份和列年份之间的差异？

我有一列“DateBecameRep_Year”，其中仅包含年份值（即 1974 年、1999 年等）。我想在数据框中创建一个新列，用于计算当前年份与“DateBecameRep_Year”字段中年份之间的差异。

下面是我尝试使用的代码：

df_DD['DateBecameRep_Year'] = pd.to_datetime(df_DD['DateBecameRep_Year'])

df_DD['Current Year'] = datetime.now().year
df_DD['Current Year'] = pd.to_datetime(df_DD['Current Year'])

df_DD['Years_Since_BecameRep'] = df_DD['Current Year'] - df_DD['DateBecameRep_Year']  
df_DD['Years_Since_BecameRep'] = df_DD['Years_Since_BecameRep'] / np.timedelta64(1, 'Y')

df_DD['Years_Since_BecameRep'].head()

Run Code Online (Sandbox Code Playgroud)

这是我得到的输出，看起来很奇怪：

我的假设是，这与以下因素有关：

任何帮助是极大的赞赏！

python datetime dataframe difference

Pin*_*ts0

lucky-day

3
推荐指数

1
解决办法

7526
查看次数

Python数据框：删除Python列中同一单元格中的重复单词

下面显示的是我拥有的数据列，另一列是我想要的重复数据删除列。

老实说，我什至不知道如何在Python代码中开始这样做。我已经在R中阅读了几篇关于此的文章，但在Python中却没有。

python string dataframe pandas

Pin*_*ts0

2017 11-16

3
推荐指数

1
解决办法

1893
查看次数

Python数据框：使用Groupby在一列上计算R ^ 2和RMSE

我有以下Python数据框：

Type    Actual  Predicted
A       4       3
A       10      18
A       13      11
B       3       10
B       4       2
B       8       33
C       20      17
C       40      33
C       87      80
C       32      30

Run Code Online (Sandbox Code Playgroud)

我有用于计算R ^ 2和RMSE的代码，但我不知道如何通过不同的“类型”来计算它。

现在，我的方法是将较大的表分为仅由A，B，C值组成的三个较小的表，然后从每个较小的表计算R ^ 2和RMSE，然后将它们重新附加在一起。

但是上述方法效率低下，我相信应该有一个更简单的方法吗？

下面是我希望将结果分组时产生的结果格式：

Type    R^2     RMSE    
A       value   value   
B       value   value   
C       value   value

Run Code Online (Sandbox Code Playgroud)

python model dataframe pandas-groupby

Pin*_*ts0

2017 12-22

3
推荐指数

1
解决办法

2366
查看次数

Python:将Pandas Dataframe写入MSSQL - >数据库错误

我有一个大约20k行和20列的pandas数据帧.我想将它写入MSSQL中的表.

我已成功建立连接:

connection = pypyodbc.connect('Driver={SQL Server};' 
                              'Server=XXX;' 
                              'Database=line;' 
                              'uid=XXX;' 
                              'pwd=XXX')

cursor = connection.cursor()

Run Code Online (Sandbox Code Playgroud)

我正在尝试使用以下代码将我的pandas数据帧写入MSSQL服务器:

df_EVENT5_16.to_sql('MODREPORT', connection, if_exists = 'replace')

Run Code Online (Sandbox Code Playgroud)

但是我收到以下错误:

DatabaseError:sql上的执行失败'SELECT name FROM sqlite_master WHERE type ='table'AND name =？;':('42S02',"[42S02] [Microsoft] [ODBC SQL Server驱动程序] [SQL Server]无效的对象名称' SQLITE_MASTER".")

python database sql-server dataframe pandas

Pin*_*ts0

2018 01-09

3
推荐指数

1
解决办法

1万
查看次数