我无法理解网页的StandardScaler的文档中sklearn.
有人能用简单的语言向我解释一下吗?
我为这个愚蠢的问题道歉......但我似乎无法找到一个简单的解决方案
我想从拟合的线性模型中提取标准化系数(在R中)必须有一个简单的方法或函数来做到这一点.你能告诉我它是什么吗?
编辑(以下一些评论):我应该提供有关我的问题的更多上下文信息.我正在为一群心理学家教授一个介绍性的R工作室.对于他们来说,没有能够获得标准化系数的线性模型就好像你根本没有运行模型一样(好吧,这有点夸张,但你明白了).当我们做了一些回归时,这是他们的第一个问题,我(我的坏)我没有预料到(我不是心理学家).当然我可以自己编程,当然我可以找到适合我的软件包.但与此同时,我认为这是线性模型的一个基本和常见的必需功能,在现场,我认为应该有一个基本的功能,无需安装越来越多的包(这被认为是初学者的难点).所以我问(这也是向他们展示如何在需要时获得帮助的机会).
我为那些认为我问过一个愚蠢问题的人道歉,并且非常感谢那些花时间回答问题的人.
我知道人工神经网络输入必须标准化,标准化等.除了各种人工神经网络的特性和模型之外,我如何在{0,1}范围内或者在范围{-1之间预处理UTF-8编码文本. 1}在它作为神经网络的输入之前?我一直在谷歌搜索这个,但找不到任何信息(我可能使用错误的术语).
编辑2013年11月20日:
我一直认为皮特的答案是正确的.然而,我有严重的疑虑,主要是由于我最近对符号知识和ANN的研究.
Dario Floreano和Claudio Mattiussi在他们的书中解释说,通过使用分布式编码,这种处理确实是可行的.
事实上,如果你尝试谷歌学者搜索,存在大量的神经科学文章和论文,关于如何假设分布式编码被大脑用来编码符号知识.
Teuvo Kohonen在他的论文" Self Organizing Maps "中解释说:
有人可能会认为将神经适应法应用于符号集(被视为一组矢量变量)可能会创建一个显示符号之间"逻辑距离"的地形图.然而,与连续数据相比,出现了符号的不同性质的问题.对于后者,相似性总是以自然的方式显示,作为其连续编码之间的度量差异.对于没有定义度量的离散符号项(例如单词),这不再适用.符号的本质是它的意义与其编码分离.
然而,Kohonen确实设法处理SOM中的符号信息!
此外,Alfred Ultsch博士在他的论文" 神经网络与符号知识处理的整合 "中完全阐述了如何在ANN中处理符号知识(如文本).Ultsch提供以下处理符号知识的方法:神经近似推理,神经统一,内省和综合知识获取.虽然谷歌学者或其他任何地方的人都可以找到很少的信息.
皮特在他的回答中是关于语义的.人工神经网络中的语义通常是断开的.然而,下面的参考,提供了洞察研究人员如何使用RBM,训练识别不同单词输入的语义相似性,因此它不应该是不可能有语义,但需要分层方法,或者如果需要语义,则需要辅助ANN .
使用子符号神经网络进行自然语言处理,Risto Miikkulainen,1997 训练受限制的Boltzmann机器进行单词观察,GEDahl,Ryan.P.Adams,H.Rarochelle,2012
preprocessor normalize standardized textinput neural-network
我偶然发现了这个"编程"语言列表,发现像Python这样的流行语言没有标准化?为什么会这样,"标准化"是什么意思?
我想应用缩放sklearn.preprocessing.scale模块,该模块scikit-learn提供中心化数据集,我将用它来训练svm分类器.
然后,我如何存储标准化参数,以便我也可以将它们应用于我要分类的数据?
我知道我可以使用standarScaler但我可以以某种方式将其序列化为一个文件,以便每次我想运行分类器时我都不必适应我的数据吗?
假设我要使用LinearSVC对数据集执行k折交叉验证。如何对数据进行标准化?
我读过的最佳实践是在培训数据上建立标准化模型,然后将此模型应用于测试数据。
当使用简单的train_test_split()时,这很容易,因为我们可以这样做:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y)
clf = svm.LinearSVC()
scalar = StandardScaler()
X_train = scalar.fit_transform(X_train)
X_test = scalar.transform(X_test)
clf.fit(X_train, y_train)
predicted = clf.predict(X_test)
Run Code Online (Sandbox Code Playgroud)
做k折交叉验证时如何标准化数据?问题出在每个数据点都用于训练/测试,因此您无法在cross_val_score()之前将所有数据标准化。每个交叉验证是否都需要不同的标准化?
该文档没有提到函数内部发生的标准化。我是SOL吗?
编辑:这篇文章超级有帮助:Python-sklearn.pipeline.Pipeline到底是什么?
我目前工作的组织似乎正朝着向软件开发人员发出必须使用工具,语言,框架等的方向前进.然而,没有人相信我这是件好事.我听到的主要论点是,它将使培训更容易.但是,在开发软件超过10年后,我从未依赖培训来学习如何使用IDE,编程语言或其他任何东西; 所以我无法联想到.
随着技术的快速发展,以及我知道标准将适应的缓慢,我担心我的客户将有我无法轻易实现或无法有效实施的要求我应该这样做.例如,如果Web应用程序中存在自动完成功能的UI要求,并且尚未批准API,我需要自己实现自动完成,而不是使用提供的众多API之一开箱即用.
一个更激进的例子是我的客户想要拥有Google Wave功能.在这种情况下,我希望能够灵活地配置我的开发环境(包括IDE)并选择适当的框架(例如:GWT)来使用.
请提供反馈,了解您是否认为应该标准化软件开发人员工具,语言等,以及支持您的论点的几点.
使用sklearn l2归一化器对数据进行归一化并将其用作训练数据后:如何将预测的输出恢复为“原始”形状?
在我的示例中,我将归一化的住房价格用作y,将归一化的居住空间用作x。每个都适合自己的X_和Y_Normalizer。
y_predict也处于标准化状态,我该如何变成原始原始货币状态?
谢谢。
python machine-learning normalization standardized scikit-learn
我的数据框my.data包含数字和因子变量.我想标准化此数据框中的数字变量.
> mydata2=data.frame(scale(my.data, center=T, scale=T))
Error in colMeans(x, na.rm = TRUE) : 'x' must be numeric
Run Code Online (Sandbox Code Playgroud)
这样做可以标准化工作吗?我想标准化列8,9,10,11和12,但我认为我的代码错了.
mydata=data.frame(scale(flowdis3[,c(8,9,10,11,12)], center=T, scale=T,))
Run Code Online (Sandbox Code Playgroud)
提前致谢
关于stackoverflow的类似问题的答案建议更改实例SVR()中的参数值,但我不知道如何处理它们。
这是我正在使用的代码:
import json
import numpy as np
from sklearn.svm import SVR
f = open('training_data.txt', 'r')
data = json.loads(f.read())
f.close()
f = open('predict_py.txt', 'r')
data1 = json.loads(f.read())
f.close()
features = []
response = []
predict = []
for row in data:
a = [
row['star_power'],
row['view_count'],
row['like_count'],
row['dislike_count'],
row['sentiment_score'],
row['holidays'],
row['clashes'],
]
features.append(a)
response.append(row['collection'])
for row in data1:
a = [
row['star_power'],
row['view_count'],
row['like_count'],
row['dislike_count'],
row['sentiment_score'],
row['holidays'],
row['clashes'],
]
predict.append(a)
X = np.array(features).astype(float)
Y = np.array(response).astype(float)
predict = np.array(predict).astype(float)
svm …Run Code Online (Sandbox Code Playgroud) standardized ×10
python ×6
scikit-learn ×5
r ×2
svm ×2
beta ×1
lm ×1
normalize ×1
preprocessor ×1
regression ×1
scaling ×1
textinput ×1
variables ×1