我有一个名为的数据集spam
,其中包含58个列和大约3500行与垃圾邮件相关的数据.
我打算将来在这个数据集上运行一些线性回归,但我想事先做一些预处理,并将列标准化为零均值和单位方差.
我被告知最好的方法是使用R,所以我想问一下如何用R实现规范化?我已经正确加载了数据,我只是在寻找一些包或方法来执行此任务.
我想拥有一个NumPy数组的规范.更具体地说,我正在寻找此功能的等效版本
def normalize(v):
norm = np.linalg.norm(v)
if norm == 0:
return v
return v / norm
Run Code Online (Sandbox Code Playgroud)
是否有类似的东西skearn
还是numpy
?
此函数适用于v
0向量的情况.
关于神经网络理论,这是一个主要问题:
为什么我们必须规范化神经网络的输入?
我理解有时,例如当输入值是非数字时,必须执行某个转换,但是当我们有数字输入时?为什么数字必须在一定的间隔内?
如果数据未规范化会发生什么?
为什么数据库人员继续关于规范化?
它是什么?它有什么用?
它适用于数据库之外的任何内容吗?
给出3次3 numpy阵列
a = numpy.arange(0,27,3).reshape(3,3)
# array([[ 0, 3, 6],
# [ 9, 12, 15],
# [18, 21, 24]])
Run Code Online (Sandbox Code Playgroud)
为了规范化我想到的二维数组的行
row_sums = a.sum(axis=1) # array([ 9, 36, 63])
new_matrix = numpy.zeros((3,3))
for i, (row, row_sum) in enumerate(zip(a, row_sums)):
new_matrix[i,:] = row / row_sum
Run Code Online (Sandbox Code Playgroud)
必须有更好的方法,不是吗?
也许要澄清:通过归一化我的意思是,每行的总和必须是1.但我认为大多数人都会清楚这一点.
我想知道我是否在python中规范化了一个URL.
例如,如果我有一个url字符串,如:" http://www.example.com/foo goo/bar.html"
我需要一个python中的库,它将额外的空间(或任何其他非规范化的字符)转换为正确的URL.
在我深入潜入MongoDB几天之前,我想我会问一个非常基本的问题,我是否应该深入研究它.我基本上没有使用nosql的经验.
我确实读过一些文档数据库的一些好处,我认为对于这个新的应用程序,它们会非常棒.对于许多类型的对象(许多m-to-m关系)和子类来说,做收藏夹,评论等总是很麻烦 - 这是一种很难处理的问题.
我还有一个结构,在SQL中定义会很麻烦,因为它非常嵌套并且比15个不同的表更好地转换为文档.
但我对一些事情感到困惑.
是否可以保持数据库的标准化?我真的不想更新多条记录.这仍然是人们如何处理MongoDB中数据库的设计?
当用户收藏某本书并且此选择仍存储在用户文档中时,会发生什么情况,但该书籍会被删除?没有外键,关系如何分离?我自己负责删除所有链接吗?
如果用户喜欢不再存在的书并且我查询它(某种类型的连接)会发生什么?我必须在这里做任何容错吗?
我听到很多关于非规范化的内容,这是为了提高某些应用程序的性能.但我从未试图做任何相关的事情.
所以,我只是好奇,归一化数据库中的哪些位置会使性能变差,换句话说,什么是非规范化原则?
如果我需要提高性能,我该如何使用这种技术?
database performance database-design normalization denormalization
我有销售人员和豆子柜台试图向客户销售定制,这很好.但是当一个复杂的变更请求出现我发回一个大的估计时,他们会感到困惑.他们常常带着"为什么你不能再增加一列?"来回到我身边.另一方面,它们意味着PER客户端的十几个自定义列.
到目前为止,我所能回过头来的是"我们正在努力使数据库保持正常化",这对他们来说毫无意义.我告诉他们,我可以创建表的一个系统,让每一个客户来定义他们自己的自定义字段,当然这需要比"只是增加了一些列"更多的时间和金钱.当然,他们想要自己的蛋糕,也吃它.
那我怎么能让他们明白?
这已经成为一个非常令人沮丧的问题,但我已经在Coursera讨论中提出要求,他们也无济于事.以下是问题:
我现在已经错了6次了.如何规范化功能?这些都是我要求的提示.
我假设x_2 ^(2)是值5184,除非我添加1的x_0列,他们没有提及,但在谈论创建设计矩阵X时他肯定会在讲座中提到.在这种情况下x_2 ^(2)将是值72.假设一个或另一个是正确的(我正在玩一个猜谜游戏),我应该用什么来规范化它?他讲述了在讲座中规范化的3种不同方式:一种使用最大值,另一种使用最大值和最小值之间的范围/差异,另一种使用标准偏差 - 他们希望答案正确到百分之一.我要用哪一个?这太令人困惑了.
normalization ×10
database ×3
python ×3
numpy ×2
architecture ×1
arrays ×1
foreign-keys ×1
mongodb ×1
normalize ×1
nosql ×1
performance ×1
r ×1
relational ×1
scikit-learn ×1
sql ×1
statistics ×1
syntax ×1
url ×1