好的我是数据库设计的新手,请给我建议.
我不知道索引做了什么,但我知道我们应该把它放在像WHERE Verified = 1那样重载,并在搜索中像company.name = something.我对吗 ?
它够了吗?
3 数据库规范化
它恰到好处吗?
alt text http://i28.tinypic.com/awp2cz.png
谢谢.
编辑*
规则.
- 每个用户(公司成员或所有者)可以是公司的成员
- 每个公司都有一些用户.
- 有公司管理员(首席执行官,管理员),有公司成员(插入产品)
- 每个公司都可以有产品.
对于数字3,我将在users_company中添加一点 - 1表示admin - 0表示成员
我意识到有几个帖子让人们询问如何将两个直方图并排绘制在一起(如同一个图中彼此相邻的条形图)并叠加在R中以及如何规范化数据.按照我发现的建议,我可以做一个或另一个,但不能同时做这两个操作.
这是设置.我有两个不同长度的数据帧,并希望将每个df中的对象的体积绘制为直方图.例如,数据帧1中的数量在.1-.2 um ^ 3之间,并将其与数据帧2中的数量在.1和.2 um ^ 3之间进行比较,依此类推.覆盖或并排是很好的做到这一点.
由于一个数据帧中的测量值多于另一个,显然我必须进行标准化,因此我使用:
read.csv(ctl)
read.csv(exp)
h1=hist(ctl$Volume....)
h2=hist(exp$Volume....
#to normalize#
h1$density=h1$counts/sum(h1$counts)*100
plot(h1,freq=FALSE....)
h2$density=h2$counts/sum(h2$counts)*100
plot(h2,freq=FALSE....)
Run Code Online (Sandbox Code Playgroud)
现在,我已成功使用此方法覆盖非标准化数据:http://www.r-bloggers.com/overlapping-histogram-in-r/以及此方法:将两个直方图绘制在一起
但是当涉及到如何覆盖规范化数据时我会陷入困境
我有一个大型的pandas数据框,大约有80列.数据框中的80列中的每一列都报告网站的每日流量统计信息(列是网站).
由于我不想使用原始流量统计信息,我更喜欢规范化所有列(第一列除外,即日期).从0到1或(甚至更好)从0到100.
Date A B ...
10/10/2010 100.0 402.0 ...
11/10/2010 250.0 800.0 ...
12/10/2010 800.0 2000.0 ...
13/10/2010 400.0 1800.0 ...
Run Code Online (Sandbox Code Playgroud)
话虽如此,我想知道适用哪种规范化.Min-Max缩放与z-Score规范化(标准化)?我的一些专栏有很强的异常值.有一个例子会很棒.很抱歉无法提供完整的数据.
我尝试在 scipy 中使用 stats.zscore() 并得到以下结果让我感到困惑。
假设我有一个数组,我以两种不同的方式计算 z 分数:
>>> a = np.array([[1.0, 2.0], [3.0, 4.0]])
>>> a
array([[ 1., 2.],
[ 3., 4.]])
Run Code Online (Sandbox Code Playgroud)
第一个结果:
>>> stats.zscore(a)
array([[-1., -1.],
[ 1., 1.]])
Run Code Online (Sandbox Code Playgroud)
第二个结果:
>>> mean = np.mean(a)
>>> mean
2.5
>>> std = np.std(a)
>>> std
1.1180339887498949
>>> b = (a-mean)/std
>>> b
array([[-1.34164079, -0.4472136 ],
[ 0.4472136 , 1.34164079]])
Run Code Online (Sandbox Code Playgroud)
上面的结果是不同的,但是如果我使用另一个数组,
>>> c = np.array([ 0.7972, 0.0767, 0.4383, 0.7866, 0.8091, 0.1954, 0.6307, 0.6599, 0.1065, 0.0508])
>>> c
array([ 0.7972, 0.0767, 0.4383, …Run Code Online (Sandbox Code Playgroud) 对于测试期间的批量归一化,如何计算每个激活输入(在每一层和输入维度)的均值和方差?是记录训练的均值和方差,计算整个训练集的均值和方差,还是计算整个测试集的均值和方差?
很多人说你要预先计算均值和方差,但是如果你使用计算整个测试集均值和方差的方法,是不是在进行前向传播的时候就需要计算整个测试集的均值和方差(不是“预”)?
非常感谢您的帮助!
machine-learning normalization neural-network deep-learning batch-normalization
当从规范化数据中删除一个实体时,我们如何处理删除被删除实体拥有的其他实体?例如,对于以下规范化数据,如果我要删除user1,我还想删除 . 发表的所有帖子和评论user1。对于这种情况,是否有任何已知的操作方法或最佳实践?
{
posts : {
byId : {
"post1" : {
id : "post1",
author : "user1",
body : "......",
comments : ["comment1", "comment2"]
}
},
allIds : ["post1"]
},
comments : {
byId : {
"comment1" : {
id : "comment1",
author : "user1",
comment : ".....",
},
"comment2" : {
id : "comment2",
author : "user1",
comment : ".....",
},
},
allIds : ["comment1", "comment2"]
},
users : {
byId : { …Run Code Online (Sandbox Code Playgroud) 我正在阅读 Levy 等人的论文“Improving Distributional Comparison\nwith Lessons Learned from Word Embeddings”,在讨论他们的超参数时,他们说:
\n\n\n\n\n向量归一化 (nrm)正如第 2 节中提到的,所有向量(即 W\xe2\x80\x99s 行)都归一化为单位长度(L2 归一化),使点积运算等效于余弦相似度。
\n
然后我想起sim2Rtext2vec包中向量相似度函数的默认值首先是 L2 范数向量:
sim2(x, y = NULL, method = c("cosine", "jaccard"), norm = c("l2", "none"))\nRun Code Online (Sandbox Code Playgroud)\n\n所以我想知道,归一化和余弦(无论是在 text2vec 方面还是一般情况下)的动机可能是什么。我尝试阅读 L2 范数,但大多数情况下它是在使用欧几里德距离之前进行标准化的背景下出现的。我(令人惊讶地)找不到任何关于在词向量空间/嵌入的余弦相似性的情况下是否推荐或反对 L2 范数的任何信息。而且我不太具备计算分析差异的数学技能。
\n\n所以这里有一个问题,意味着在从文本数据学习的词向量空间的背景下(要么只是可能由 tfidf、ppmi 等加权的共现矩阵;或者像 GloVe 这样的嵌入),并计算词相似度(目标是当然使用最能反映现实世界单词相似性的向量空间+度量)。
简而言之,在计算向量/单词之间的余弦相似度之前,是否有任何理由(不)在单词特征矩阵/术语共现矩阵上使用 L2 范数?
DL 中的一项常见任务是将输入样本归一化为零均值和单位方差。可以使用如下代码“手动”执行规范化:
mean = np.mean(X, axis = 0)
std = np.std(X, axis = 0)
X = [(x - mean)/std for x in X]
Run Code Online (Sandbox Code Playgroud)
但是,除了要训练的 Keras 模型之外,还必须保留均值和标准值,以标准化测试数据。由于均值和标准差是可学习的参数,也许 Keras 可以学习它们?像这样的东西:
m = Sequential()
m.add(SomeKerasLayzerForNormalizing(...))
m.add(Conv2D(20, (5, 5), input_shape = (21, 100, 3), padding = 'valid'))
... rest of network
m.add(Dense(1, activation = 'sigmoid'))
Run Code Online (Sandbox Code Playgroud)
我希望你明白我在说什么。
在数据库中有带有记录的时间序列数据:
device- timestamp- temperature- min limit-max limitdevice- timestamp- temperature- min limit-max limitdevice- timestamp- temperature- min limit-max limit每device有 4 小时的时间序列数据(间隔 5 分钟)在发出警报之前和 4 小时的时间序列数据(再次间隔 5 分钟)没有引发任何警报。该图更好地描述了数据的表示,对于每个device:
我需要在 python 中使用 RNN 类进行警报预测。当temperature低于min limit或高于时,我们定义警报max limit。
从 tensorflow here阅读官方文档后,我在理解如何设置模型的输入时遇到了麻烦。我应该事先规范化数据还是其他什么,如果是,如何规范化?
同样阅读这里的答案也没有帮助我清楚地了解如何将我的数据转换为 RNN 模型可接受的格式。
关于我的情况下X和Yinmodel.fit应该是什么样子的任何帮助?
如果您看到有关此问题的任何其他问题,请随时发表评论。
附注。我已经设定python …
machine-learning normalization neural-network lstm recurrent-neural-network
我试图了解torch.nn.LayerNormnlp 模型的工作原理。假设输入数据是一批词嵌入序列:
batch_size, seq_size, dim = 2, 3, 4
embedding = torch.randn(batch_size, seq_size, dim)
print("x: ", embedding)
layer_norm = torch.nn.LayerNorm(dim)
print("y: ", layer_norm(embedding))
# outputs:
"""
x: tensor([[[ 0.5909, 0.1326, 0.8100, 0.7631],
[ 0.5831, -1.7923, -0.1453, -0.6882],
[ 1.1280, 1.6121, -1.2383, 0.2150]],
[[-0.2128, -0.5246, -0.0511, 0.2798],
[ 0.8254, 1.2262, -0.0252, -1.9972],
[-0.6092, -0.4709, -0.8038, -1.2711]]])
y: tensor([[[ 0.0626, -1.6495, 0.8810, 0.7060],
[ 1.2621, -1.4789, 0.4216, -0.2048],
[ 0.6437, 1.0897, -1.5360, -0.1973]],
[[-0.2950, -1.3698, 0.2621, 1.4027],
[ 0.6585, 0.9811, …Run Code Online (Sandbox Code Playgroud) normalization ×10
python ×2
histogram ×1
keras ×1
lstm ×1
mysql ×1
numpy ×1
pandas ×1
plot ×1
python-3.x ×1
pytorch ×1
r ×1
reactjs ×1
redux ×1
scipy ×1
statistics ×1
text2vec ×1
vector-space ×1