问题设置 在statsmodels分位数回归问题中,它们的最小绝对偏差摘要输出显示截距.在该示例中,他们使用公式
from __future__ import print_function
import patsy
import numpy as np
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from statsmodels.regression.quantile_regression import QuantReg
data = sm.datasets.engel.load_pandas().data
mod = smf.quantreg('foodexp ~ income', data)
res = mod.fit(q=.5)
print(res.summary())
QuantReg Regression Results
==============================================================================
Dep. Variable: foodexp Pseudo R-squared: 0.6206
Model: QuantReg Bandwidth: 64.51
Method: Least Squares Sparsity: 209.3
Date: Fri, 09 Oct 2015 No. Observations: 235
Time: 15:44:23 Df Residuals: …Run Code Online (Sandbox Code Playgroud) 根据这个答案,您可以importlib使用import_module相对导入,如下所示:
importlib.import_module('.c', 'a.b')
Run Code Online (Sandbox Code Playgroud)
为什么相对导入对 sklearn.feature_extraction.text 不起作用?
importlib.import_module('.text', 'sklearn.feature_extraction')
Run Code Online (Sandbox Code Playgroud)
我验证了这text是一个模块:
from types import ModuleType
import sklearn.feature_extraction.text
isinstance(sklearn.feature_extraction.text, ModuleType)
Run Code Online (Sandbox Code Playgroud)
退货
True
Run Code Online (Sandbox Code Playgroud)
编辑
我所说的“不起作用”是指它不导入模块。
我正在使用Python 3.4
绝对方式有效:
import importlib
text = importlib.import_module('sklearn.feature_extraction.text')
tfidf = text.TfidfVectorizer()
Run Code Online (Sandbox Code Playgroud)
相对方式不会:
import importlib
text = importlib.import_module('.text', 'sklearn.feature_extraction')
Traceback (most recent call last):
File "<pyshell#28>", line 1, in <module>
text = importlib.import_module('.text', 'sklearn.feature_extraction')
File "C:\Python34\lib\importlib\__init__.py", line 109, in import_module
return _bootstrap._gcd_import(name[level:], package, level)
File "<frozen importlib._bootstrap>", line 2249, in _gcd_import
File …Run Code Online (Sandbox Code Playgroud) 我只是不确定如何做我想要实现的目标。
前置上下文
grid-template-areas布局添加更多行,但我的内容将是可变高度,因此此解决方案似乎可能会导致意外的空白,具体取决于内容。相关背景
图1
在下图中,“卡片下部侧边栏”位于搜索框区域和“主要内容区域”之间。当屏幕转换为 xl (1200px) 时,“卡片下侧边栏”内容块会弹出,成为右下侧边栏区域。搜索框和主要内容区域保持原样。
个人资料区域弹出成为右上角的侧边栏区域。 …
我的 IAM 用户有两个策略:AdministratorAccess和ForceMultiFactorAuthentication。当附加ForceMultiFactorAuthentication策略时,从 Windows 命令行尝试对存储库执行任何操作时都会收到 403 错误(例如:git clone ..)。当我删除该策略时,我可以使用该存储库(例如:git clone有效)。
我的ForceMultiFactorAuthentication策略是否存在阻止代码提交工作的因素?如何通过多重身份验证正确设置 CodeCommit?
git clone https://git-codecommit...在本地尝试fatal: unable to access 'https://git-codecommit...': The requested URL returned error: 403git clone ..它克隆了存储库。有用。 …amazon-web-services aws-codecommit multi-factor-authentication
我想我已经知道我的答案了,但是那里比我聪明得多,经验丰富的人很多,所以我想问一下。
我运行到MemoryError试图将我当hash_matrix(<class 'scipy.sparse.csr.csr_matrix'>)来AffinityPropagation。仅10,000个样本就失败了,这在我的实际数据集范围内相对较小。
我的问题:我喜欢AffinityPropagation在较小的数据集上看到的结果,但是除非我能够将其应用于较大的数据集,否则它没有用。
我的问题:是否试图将AffinityPropagation安装在标准笔记本电脑上不太可能发生的成千上万个项目上?
我学到了什么:
AffinityPropagation 不支持 partial_fit增量学习。AffinityPropagationAffinity Propagation [is] most appropriate for small to medium sized datasets.引发的错误:
Traceback (most recent call last):
File "C:/Users/my.name/Documents/my files/Programs/clustering_test/SOexample.py", line 68, in <module>
aff.fit(hash_matrix)
File "C:\Python34\lib\site-packages\sklearn\cluster\affinity_propagation_.py", line 301, in fit
copy=self.copy, verbose=self.verbose, return_n_iter=True)
File "C:\Python34\lib\site-packages\sklearn\cluster\affinity_propagation_.py", line 105, in affinity_propagation
S += ((np.finfo(np.double).eps * S + np.finfo(np.double).tiny * 100) *
MemoryError
Run Code Online (Sandbox Code Playgroud)
完整的工作代码示例:
import pandas as …Run Code Online (Sandbox Code Playgroud) python memory cluster-analysis machine-learning scikit-learn
我想R在以下位置使用以下脚本Python:
> library(bfast)
> apple <- read.csv("/Users/nskalis/Downloads/R/apple.csv", sep = ";", header=TRUE)
> data = apple
# data$in_bps: is vector of double numbers
> data.ts <- ts(data$in_bps, frequency=1)
> data.fit <- bfast(data.ts, h=0.1, season="none", max.iter=1)
> data.fit$output[[1]]$Tt
> data.fit$output[[1]]$Vt.bp
> data.fit$output[[1]]$ci.Vt
> data.fit$output[[1]]$ci.Vt$confint
Run Code Online (Sandbox Code Playgroud)
因此我正在使用rpy2并做了以下操作:
from rpy2.robjects.packages import importr
import rpy2.robjects as robjects
importr("bfast")
data = range(1,100)
data = robjects.FloatVector(data)
data = robjects.r.ts(data, frequency=1)
x = robjects.r.bfast(data, h=0.1, season="none", max_iter=1)
Run Code Online (Sandbox Code Playgroud)
结果变量x等于
In [42]: x …Run Code Online (Sandbox Code Playgroud) 这个问题不像有人建议的那样重复.为什么?因为在该示例中,所有可能的值都是已知的.在这个例子中,它们不是.此外,这个问题 - 除了在未知值上使用自定义转换器 - 还要具体询问如何以与初始变换相同的方式执行变换.我再一次可以告诉我最终必须回答我自己的问题.
在创建自定义scikit-learn变换器时,如何保证或"强制"转换方法仅输出最初安装的列?
下面说明.这是我的示例变压器.
import numpy as np
import pandas as pd
from sklearn.base import TransformerMixin
from sklearn.linear_model import LogisticRegression
class DFTransformer(TransformerMixin):
def fit(self, df, y=None, **fit_params):
return self
def transform(self, df, **trans_params):
self.df = df
self.STACKER = pd.DataFrame()
for col in self.df:
dtype = self.df[col].dtype.name
if dtype == 'object':
self.STACKER = pd.concat([self.STACKER, self.get_dummies(col)], axis=1)
elif dtype == 'int64':
self.STACKER = pd.concat([self.STACKER, self.cut_it(col)], axis=1)
return self.STACKER
def get_dummies(self, name):
return pd.get_dummies(self.df[name], prefix=name)
def cut_it(self, name, …Run Code Online (Sandbox Code Playgroud) 我在 Heroku 上部署了一个 Django 应用程序,目的是允许受信任的、已知的、内部用户上传一个 CSV 文件,点击“运行”,然后在幕后,Django 应用程序:
.pkl模型(比如120 MB 大小)predict使用 CSV 数据作为输入调用模型这适用于小型 CSV 文件,但Memory quota vastly exceeded如果用户上传大型CSV 文件,则会导致......并且较大的 CSV 文件会增加内存消耗是有道理的。
我不确定在哪里调整。我想知道是否有人在部署 sklearn 模型时遇到过类似的情况以及他们如何“解决”它?
我的想法是:
DEBUG设置为False.我的 django models.py 看起来像这样:
from django.db import models
from django.urls import reverse
class MLModel(models.Model):
name = models.CharField(max_length=80)
file = …Run Code Online (Sandbox Code Playgroud) 有一个网站叫:TubeSift
此工具确定视频是否“货币化”。
我的简单问题是...
有没有办法通过某些 YouTube API 确定特定的 YouTube 视频是否已获利(可以显示插播广告)?
如果是,是哪个 YouTube API?
如果没有,那么TubeSift 如何确定这一点?抓取响应?
重要区别:这将是您没有身份验证或凭据来管理的视频 - 即:它是其他人的视频。
类似的问题问的东西略有不同
免责声明 我意识到这个问题似乎偏离主题,因为它没有代码示例,但 YouTube 的如何获取帮助说基本上在 StackOverflow 上提出问题以获得帮助。
我们支持 Stack Overflow 上的 YouTube 数据 API。Google 工程师使用 youtube-api、youtube-data-api 和 youtube-v3-api 标签监控和回答问题。
真的无处可问。
df = pd.DataFrame({'Col1': ['label1', 'label1', 'label2', 'label2',
'label3', 'label3', 'label4'],
'Col2': ['a', 'd', 'b', 'e', 'c', 'f', 'q']}, columns=['Col1', 'Col2'])
Run Code Online (Sandbox Code Playgroud)
看起来像这样
Col1 Col2
0 label1 a
1 label1 d
2 label2 b
3 label2 e
4 label3 c
5 label3 f
6 label4 q
Run Code Online (Sandbox Code Playgroud)
对于其中的唯一值Col1,我想将列的唯一值转换为列.从某种意义上说,我试图将" Col1取消堆叠" 值作为列标题,行值将是其中的值Col2.我的关键主要问题是我不是在计算任何数字数据 - 它都是文本 - 而我只是试图重塑结构.
这是期望的结果:
label1 label2 label3 label4
0 a b c q
1 d e f NaN
Run Code Online (Sandbox Code Playgroud)
我试过:stack,unstack,pd.melt,pivot_table, …
python ×6
scikit-learn ×3
bootstrap-4 ×1
celery ×1
css ×1
django ×1
flexbox ×1
grouping ×1
heroku ×1
html ×1
import ×1
memory ×1
multi-factor-authentication ×1
pandas ×1
python-3.x ×1
quantile ×1
r ×1
regression ×1
rpy2 ×1
statsmodels ×1
text ×1
youtube-api ×1