两个快速的熊猫问题供您选择。
我有一个要应用过滤器的数据框列表。
countries = [us, uk, france]
for df in countries:
df = df[(df["Send Date"] > '2016-11-01') & (df["Send Date"] < '2016-11-30')]
Run Code Online (Sandbox Code Playgroud)
当我运行它时,df之后不会更改。这是为什么?如果我遍历数据帧以创建一个新列,如下所示,则可以正常工作,并更改列表中的每个df。
for df in countries:
df["Continent"] = "Europe"
Run Code Online (Sandbox Code Playgroud)作为后续问题,当我创建不同国家的数据框列表时,我注意到了一些奇怪的事情。我定义了列表,然后将转换应用于列表中的每个df。在转换了这些不同的dfs之后,我再次调用了该列表。我很惊讶地看到列表仍然指向未更改的数据帧,因此我不得不重新定义列表以更新结果。有人能解释为什么会这样吗?
我cross_val_score用来计算回归指标的平均得分。这是一个小片段。
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
cross_val_score(LinearRegression(), X, y_reg, cv = 5)
Run Code Online (Sandbox Code Playgroud)
使用这个我得到了一系列的分数。我想知道验证集的分数(在上面的数组中返回)与训练集的分数有何不同,以了解我的模型是过拟合还是欠拟合。
有办法做到这一点的cross_val_score对象吗?