小编Jay*_*s01的帖子

在Python中轻松访问标准化残差,厨师价值,帽子价值(杠杆)等?

我在拟合线性回归后寻找影响统计数据.在RI中可以像这样获得它们(例如):

hatvalues(fitted_model) #hatvalues (leverage)
cooks.distance(fitted_model) #Cook's D values
rstandard(fitted_model) #standardized residuals
rstudent(fitted_model) #studentized residuals
Run Code Online (Sandbox Code Playgroud)

等等

在拟合这样的模型后,如何在Python中使用statsmodel时获得相同的统计信息:

#import statsmodels
import statsmodels.api as sm

#Fit linear model to any dataset
model = sm.OLS(Y,X)
results = model.fit()

#Creating a dataframe that includes the studentized residuals
sm.regression.linear_model.OLSResults.outlier_test(results)
Run Code Online (Sandbox Code Playgroud)

编辑:见下面的答案......

python linear-regression scikit-learn statsmodels

7
推荐指数
2
解决办法
4494
查看次数

使用 kable 或 kableExtra 左对齐表格标题

是否可以左对齐表格标题?我对 APA6th 规则感到恼火,但我必须以某种方式左对齐表格标题。

以这张表为例:

library(knitr)
library(kableExtra) 

kable(mtcars[1:10, 1:6], format = "latex", caption = "I need this left-aligned.", booktabs = T) %>% 
      kable_styling(position = "left") %>%
      group_rows("Group 1", 4, 7) %>%
      group_rows("Group 2", 8, 10)
Run Code Online (Sandbox Code Playgroud)

标题将始终在表格上方居中,即使我将表格位置与kable_styling(position = "left").

编辑:请参阅此处了解至少对我有用的临时解决方案。

r r-markdown kableextra kable

7
推荐指数
1
解决办法
2867
查看次数

导出到 csv 时的 timedelta 格式松散 - 有解决方案吗?

我有一个带有日期时间对象(包括 timedelta)的 Pandas Dataframe。当我创建 DF 时一切正常,但是当我将它导出到 csv 然后再次导入时,日期时间对象是字符串。

我尝试使用

pd.read_csv('xyz.csv',parse_dates=True)
Run Code Online (Sandbox Code Playgroud)

导入时以及

df.to_csv('xyz.csv',date_format='%Y-%m-%d %H:%M:%S')
Run Code Online (Sandbox Code Playgroud)

导出时。但它不起作用。

上下文:我创建了一个生成数据的程序,将其放入一个 Pandas DF 中,并且这些 DF 必须存储到下次打开该程序为止。

所以我的问题是:是否有可能使用 CSV.format 来做到这一点?一般来说,导出 Pandas DF 以尽可能多地保留其属性的最佳格式是什么?谢谢!

编辑:

数据样本:这是 DF 中的一行(索引是日期时间对象)。列是“任务”(字符串格式)和“持续时间”(时间增量对象)。

2017-04-18 08:11:39|PyMC3_Book|0 天 00:24:49.919194

datetime export pandas

6
推荐指数
1
解决办法
1501
查看次数