我在拟合线性回归后寻找影响统计数据.在RI中可以像这样获得它们(例如):
hatvalues(fitted_model) #hatvalues (leverage)
cooks.distance(fitted_model) #Cook's D values
rstandard(fitted_model) #standardized residuals
rstudent(fitted_model) #studentized residuals
Run Code Online (Sandbox Code Playgroud)
等等
在拟合这样的模型后,如何在Python中使用statsmodel时获得相同的统计信息:
#import statsmodels
import statsmodels.api as sm
#Fit linear model to any dataset
model = sm.OLS(Y,X)
results = model.fit()
#Creating a dataframe that includes the studentized residuals
sm.regression.linear_model.OLSResults.outlier_test(results)
Run Code Online (Sandbox Code Playgroud)
编辑:见下面的答案......
是否可以左对齐表格标题?我对 APA6th 规则感到恼火,但我必须以某种方式左对齐表格标题。
以这张表为例:
library(knitr)
library(kableExtra)
kable(mtcars[1:10, 1:6], format = "latex", caption = "I need this left-aligned.", booktabs = T) %>%
kable_styling(position = "left") %>%
group_rows("Group 1", 4, 7) %>%
group_rows("Group 2", 8, 10)
Run Code Online (Sandbox Code Playgroud)
标题将始终在表格上方居中,即使我将表格位置与kable_styling(position = "left").
编辑:请参阅此处了解至少对我有用的临时解决方案。
我有一个带有日期时间对象(包括 timedelta)的 Pandas Dataframe。当我创建 DF 时一切正常,但是当我将它导出到 csv 然后再次导入时,日期时间对象是字符串。
我尝试使用
pd.read_csv('xyz.csv',parse_dates=True)
Run Code Online (Sandbox Code Playgroud)
导入时以及
df.to_csv('xyz.csv',date_format='%Y-%m-%d %H:%M:%S')
Run Code Online (Sandbox Code Playgroud)
导出时。但它不起作用。
上下文:我创建了一个生成数据的程序,将其放入一个 Pandas DF 中,并且这些 DF 必须存储到下次打开该程序为止。
所以我的问题是:是否有可能使用 CSV.format 来做到这一点?一般来说,导出 Pandas DF 以尽可能多地保留其属性的最佳格式是什么?谢谢!
编辑:
数据样本:这是 DF 中的一行(索引是日期时间对象)。列是“任务”(字符串格式)和“持续时间”(时间增量对象)。
2017-04-18 08:11:39|PyMC3_Book|0 天 00:24:49.919194
datetime ×1
export ×1
kable ×1
kableextra ×1
pandas ×1
python ×1
r ×1
r-markdown ×1
scikit-learn ×1
statsmodels ×1