标签: normalization

要"查表"还是没有?

我目前正在为一个项目设计一个数据库.现在我正在与自己辩论是否必须创建一个查找表,例如"民用状态"数据,该数据只能包含固定值,如Single,Married,Separated,Widow/Widower.我很确定将来不会添加任何其他值.我应该将它们放在一个单独的表上,还是仅仅对程序代码上的值进行硬编码?

database-design normalization

3
推荐指数
1
解决办法
869
查看次数

对桌面设计感到困惑.如何存储多个数据

我有一个用于存储邮递员覆盖范围的表.它有两个字段

postmanid covering_pincode

我要实现的是,当用户在文本框中输入密码时,会显示覆盖该密码的邮递员列表.

我的疑问是,如何输入表中的值

1. Multiple pincodes stored in single row like  
postmanid->1, covering_pincode-> 626123, 626124, 626432, 654564
Run Code Online (Sandbox Code Playgroud)

要么

2.按每个单独的字段显示每个密码

postmanid->1, covering_pincode->626123,
postmanid->1, covering_pincode->626124,
postmanid->1, covering_pincode->626432, 
postmanid->1, covering_pincode->654564
Run Code Online (Sandbox Code Playgroud)

请帮助哪一个最适合通过密码搜索表

php mysql normalization

3
推荐指数
1
解决办法
174
查看次数

根据列值将数据划分到不同的表中是否合理?

如果我有一个大型表,其列具有相当有限的值范围(例如<100),将该表划分为多个名称与该列值相关联的表是否合理?

例如像列一样的表格:

table "TimeStamps": [Id] [DeviceId] [MessageCounter] [SomeData]

其中[DeviceId]是"有限范围"列将被分离成几个不同的表:

table "TimeStamps1": [Id] [MessageCounter] [SomeData]
table "TimeStamps2": [Id] [MessageCounter] [SomeData]
...
table "TimeStampsN": [Id] [MessageCounter] [SomeData]

我在原始表中遇到的问题是,为某些DeviceId值找到最大的MessageCounter值需要很长时间才能执行(参见本文).

如果表是分开的,找到最大列号应该是O(1)操作.

[编辑]

只是偶然发现了这个,以为我会更新它.通过一些正确的索引配置和预定的索引重组作业,我能够通过规范化表单获得出色的性能.我建议为每个瓶颈查询尝试SSMS 数据库引擎优化顾问工具,这对于主要工作不是数据库设计的人来说非常有帮助.

sql database database-design sql-server-2005 normalization

3
推荐指数
2
解决办法
342
查看次数

存储聚合数据是否违反数据库规范化?

在像SO这样的网站上,我确信绝对有必要存储尽可能多的聚合数据,以避免在每个页面加载时执行所有那些复杂的查询/计算.例如,存储每个问题/答案的投票计数的运行记录,或存储每个问题的答案数,或者查看问题的次数,以便不需要经常执行这些查询.

但这样做是否违反了数据库规范化或任何其他标准/最佳实践?这样做的最佳方法是什么,例如,每个表是否都有另一个聚合数据表,如果它存储在它所代表的同一个表中,何时应该更新聚合数据?

谢谢

database normalization aggregation

3
推荐指数
2
解决办法
1001
查看次数

表链,何时反规范化?

假设TABLE-A在TABLE-B中可以有一行或多行,它们可以在TABLE-C中有一行或多行,它们可以在TABLE-D中有一行或多行......依此类推.

假设我在TABLE-Z并且需要知道有关TABLE-A的详细信息.我是否从TABLE-Z一直到TABLE-A进行SQL查询?在某些时候,如果说TABLE-Z有一个FK到TABLE-A那么也许会很好,所以查询不会那么痛苦.但是,如果我把那个FK,我想我会破坏正常化,对吧?

关于如何处理这个问题的一般建议?

mysql database-design normalization denormalization denormalized

3
推荐指数
1
解决办法
281
查看次数

规范化音频,如何将float数组转换为字节数组?

大家好,我正在播放音频文件.我把它读作a byte[],然后我需要通过将值放入[-1,1]的范围来规范化音频.我想将每个浮点值放入一个byte[i]数组,然后将其byte[]放回播放音频播放器.

我试过这个:

byte[] data = ar.ReadData();
byte[] temp=new byte[data.Length];
float biggest= 0; ;
for (int i = 0; i < data.Length; i++)
{
    if (data[i] > biggest)
    {
        biggest= data[i];
    }
}
Run Code Online (Sandbox Code Playgroud)

这段代码应该举例如0.43 int byte []如果可能的话我试过这个但是它不起作用:

for (int i = 0; i < data.Length; i++)
{
    temp = BitConverter.GetBytes(data[i] * (1 / biggest));
}
Run Code Online (Sandbox Code Playgroud)

c# floating-point audio bytearray normalization

3
推荐指数
1
解决办法
6187
查看次数

叫做unicode表示形式是什么?

我一直在讨论这个问题,从服务器返回的JSON UTF-8字符串包含这样的unicode对:

\ u00c3\u00bc

它被渲染为两个单独的角色.但是,它应该呈现为单个字符.根据我在此链接中找到的表格,这里有一些例子:

0xc3,0xa0 agrave
0xc3,0xa1 aacute
0xc3,0xa2 acircumflex
0xc3,0xa3 atilde
0xc3,0xa4 adiaeresis
0xc3,0xa5 aring
0xc3,0xa6 ae
0xc3,0xa7 ccedilla
0xc3,0xa8 egrave
0xc3,0xa9 eacute
0xc3,0xaa ecircumflex
0xc3,0xab ediaeresis
0xc3,0xac igrave
0xc3,0xad iacute
0xc3,0xae icircumflex
0xc3,0xaf idiaeresis
0xc3,0xb0 eth
0xc3,0xb1 ntilde
0xc3,0xb2 ograve
0xc3,0xb3 oacute
Run Code Online (Sandbox Code Playgroud)

(我在数据中看到这种情况的每种情况都会转换为适当的单个字符.)

其中许多显然是像'\ uxxxx'这样的单线形式的"别名",但我以这种方式接收它们作为双重线.原始数据字节显示这实际上是从服务器传输的方式.

(一旦我以UTF-8收到它们,我没有理由将它们保留在内存中的本地表示中.)

我不知道该怎么称呼它,所以我很难找到很多关于它的信息,而且我无法就这个问题进行清楚的沟通.我想知道为什么它被使用,我在哪里可以找到将其转换为我的UIWebView可以正确呈现的内容的代码,但知道它的名称是我的问题.

我的问题是这个双重或配对形式叫什么?

(如果它有用,我在Objective-C和CocoaTouch中工作.)

unicode cocoa-touch objective-c normalization unicode-normalization

3
推荐指数
2
解决办法
1046
查看次数

矢量化matlab列标准化

我想对每列的矩阵进行标准化.我现在有这个代码工作正常:

A = randn(10,3)

maxA = max(A,[],1)
minA = min(A,[],1)

for i=1:size(A,2)
    A(:,i) = (A(:,i) - minA(i) ./ (maxA(i) - minA(i))
end
Run Code Online (Sandbox Code Playgroud)

但是,由于我的矩阵会更大,大约10k乘60k循环将需要永远.我怎么能矢量化我的代码?我曾想过使用Matlab,normc但这与我的代码不一样.

matlab normalization vectorization

3
推荐指数
1
解决办法
2447
查看次数

OpenGL-为什么normalize()不是幂等的?

我正在使用OpenGL ES 2.0开发Java中的Android游戏。目前,我正在编写自己的顶点和片段着色器。我在片段着色器中遇到了一个怪异的问题:与normalize(u_LightPos - v_Position)不同normalize(normalize(u_LightPos - v_Position)),其中u_LightPos是一致且v_Position变化的。

为什么normalize()不等幂?为什么必须调用两次才能获得实际的法线(长度1)矢量?这非常令人困惑。

编辑:

这是顶点着色器:

uniform mat4 u_MVPMatrix;
uniform mat4 u_MVMatrix;
attribute vec4 a_Position;
attribute vec3 a_Normal;
varying vec3 v_Position;
varying vec3 v_Normal;
void main() {
    v_Position = vec3(u_MVMatrix * a_Position);
    v_Normal = vec3(u_MVMatrix * vec4(a_Normal, 0.0));
    gl_Position = u_MVPMatrix * a_Position;
}
Run Code Online (Sandbox Code Playgroud)

这是片段着色器:

precision mediump float;
uniform vec3 u_LightPos;
uniform vec4 u_Color;
varying vec3 v_Position;
varying vec3 v_Normal;
void main() {
    float …
Run Code Online (Sandbox Code Playgroud)

android opengl-es normalization opengl-es-2.0

3
推荐指数
1
解决办法
794
查看次数

TfidfVectorizer-标准化偏差

我想确保我了解TfidfVectorizer对象中的use_idf和sublinear_tf属性的作用。我已经研究了几天。我正在尝试对长度不同的文档进行分类,并使用当前的tf-idf进行功能选择。

我相信什么时候 use_idf=true算法将针对固有问题(使用TF)的偏见归一化,该术语的频率要高出X倍就不那么重要了。

利用tf*idf公式。然后sublinear_tf = true灌输1+log(tf),以使对长文件和短文件的偏见正常化。

我正在处理对冗长文档(本质上属于一类)的内在偏见,这种规范化是否真的可以减少偏见?

如何确定语料库中文档的长度未集成到模型中?

我正在尝试验证是否在模型中应用了规范化。我试图提取语料库的归一化向量,所以我假设我可以对Tfidfvectorizer矩阵的每一行求和。但是总和大于1,我认为归一化的副本会将所有文档转换为0-1之间的范围。

vect = TfidfVectorizer(max_features=20000, strip_accents='unicode',
stop_words=stopwords,analyzer='word', use_idf=True, tokenizer=tokenizer, ngram_range=(1,2),sublinear_tf= True , norm='l2')

tfidf = vect.fit_transform(X_train)
# sum norm l2 documents
vect_sum = tfidf.sum(axis=1)
Run Code Online (Sandbox Code Playgroud)

python normalization tf-idf scikit-learn

3
推荐指数
2
解决办法
4230
查看次数