标签: normalization

将 Keras 模型的输出重新缩放回原始比例

我是神经网络的新手(只是免责声明)。

我有一个基于 8 个特征预测混凝土强度的回归问题。我首先做的是使用最小-最大标准化重新调整数据:

# Normalize data between 0 and 1
from sklearn.preprocessing import MinMaxScaler

min_max = MinMaxScaler()
dataframe2 = pd.DataFrame(min_max.fit_transform(dataframe), columns = dataframe.columns)
Run Code Online (Sandbox Code Playgroud)

然后将数据帧转换为numpy数组并将其拆分为X_train,y_train,X_test,y_test。现在这是网络本身的 Keras 代码:

from keras.models import Sequential
from keras.layers import Dense, Activation

#Set the params of the Neural Network
batch_size = 64
num_of_epochs = 40
hidden_layer_size = 256

model = Sequential()
model.add(Dense(hidden_layer_size, input_shape=(8, )))
model.add(Activation('relu'))
model.add(Dense(hidden_layer_size))
model.add(Activation('relu'))
model.add(Dense(hidden_layer_size))
model.add(Activation('relu'))
model.add(Dense(1))
model.add(Activation('linear'))


model.compile(loss='mean_squared_error', # using the mean squared error function
              optimizer='adam', # using the Adam optimiser
              metrics=['mae', …
Run Code Online (Sandbox Code Playgroud)

numpy machine-learning normalization scikit-learn keras

4
推荐指数
1
解决办法
9735
查看次数

如何在反应查询中重新获取集合中的单个项目

假设我有一个查询来获取电影集合:

useQuery(['movies'], getMovies)
Run Code Online (Sandbox Code Playgroud)

现在,如果我只想重新获取一部电影而不是所有电影,我可以编写如下内容:

useQuery(['movies', movieId], () => getMovie(movieId))
Run Code Online (Sandbox Code Playgroud)

问题是我使用不同的查询键并且它会重复数据。我会将这部电影放入缓存中两次。

那么,更新获取的集合中的单个项目的反应查询方式是什么?useQuery(['movies'])当获取单个项目时,所有使用的组件都应该自动更新。

normalization reactjs react-query

4
推荐指数
1
解决办法
3382
查看次数

规范化rails中的数据

我做了一个rails模型

script/generate model Customer name:string address:string city:string state:string zip:integer [...]
Run Code Online (Sandbox Code Playgroud)

我用5000个客户填充了数据库并开始构建我的应用程序.现在我意识到我的模型没有规范化:我经常在同一个地址有多个客户!如果我希望按地址执行某些操作,例如邮件,则会导致问题.我想拥有的是Address模型,Customer模型和Mailing模型.

是否有轨道方式来规范现有模型,将其分为两个模型?或者我应该编写一个脚本来规范化现有数据,然后相应地生成新模型?

ruby-on-rails normalization

3
推荐指数
1
解决办法
2621
查看次数

规范化地址

我正在尝试规范化地址.

下图显示了我认为的这个问题的相关表格.我想知道如何将ZipCodes集成到模型中.这将是国际地址,所以我知道Zip/PostalCode并没有在任何地方使用.我认为City :: ZipCode是1 :: 0-n(我读过其他人说这并非总是如此,但他们从未提供过证据).如果他们是正确的,那么我想这将是一个多对多的关系.由于每个地址最多只能包含一个ZipCode,而ZipCode可以包含许多地址,因此我在如何规范化此模型时会丢失.

由于地址可能包含或不包含ZipCode,因此我需要避免在地址表中将其作为可空的FK.

编辑: 只是想强调所提供的实体和属性从实际数据库中大幅缩减.它仅用作参考并解决我对将zipcodes包含在模型中的问题的关注.

在此输入图像描述

database zipcode database-design normalization relational-database

3
推荐指数
1
解决办法
9934
查看次数

归一化TF-IDF结果

我想规范化我从这个给定代码得到的tfidf结果:

for (int docNum = 0; docNum < ir.numDocs(); docNum++) {
            TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents");
            if (tfv == null) {
                // ignore empty fields
                continue;
            }
            String[] tterms = tfv.getTerms();
            int termCount = tterms.length;
            int[] freqs = tfv.getTermFrequencies();
            for (int t = 0; t < termCount; t++) {
                double idf = ir.numDocs() / ir.docFreq(new Term("contents", tterms[t]));
                System.out.println(" " + tterms[t] + " " + freqs[t]*Math.log(idf));
            }
        }
Run Code Online (Sandbox Code Playgroud)

此代码的输出是:

area 0.0
areola 5.877735781779639
ari 3.9318256327243257
art 1.6094379124341003
artifici 1.0986122886681098
assign …
Run Code Online (Sandbox Code Playgroud)

normalize normalization tf-idf

3
推荐指数
1
解决办法
1万
查看次数

调度数据库设计

我需要在我的工作中为各个位置创建一个调度程序.我需要为每个特定位置安排从早上8点到下午5点的十五分钟时段.我试图围绕所需的数据库设计.

一些参数:

  1. 时间表至少需要两周时间.
  2. 与其他位置相比,每个位置都有一个独特的时间表.
  3. 时间表必须在15分钟内完成.
  4. 当块满时,每个位置都有不同的标准.例如,一个位置可以每15分钟为3个客户服务,因此他们的块将是三分之一.另一个位置可以每15分钟为5个客户提供服务,因此在安排了5个人之后他们的积木将会满员.

每次我草拟这一点,我都违反了一些数据库规范化规则.主要目标是能够查询特定位置以查看打开的"插槽"并显示它们.任何人都知道我应该如何构建我的表,以便我刚才描述的查询不必更加努力地工作?

mysql database-design scheduling normalization

3
推荐指数
1
解决办法
2754
查看次数

为什么我不能规范化这个随机的unicode字符串?

我需要在unicode字符串上评估levenshtein编辑距离,这意味着需要对包含相同内容的两个字符串进行规范化,以避免偏向编辑距离.

以下是我为测试生成随机unicode字符串的方法:

def random_unicode(length=10):
    ru = lambda: unichr(random.randint(0, 0x10ffff))
    return ''.join([ru() for _ in xrange(length)])
Run Code Online (Sandbox Code Playgroud)

这是一个失败的简单测试用例:

import unicodedata
uni = random_unicode()
unicodedata.normalize(uni, 'NFD')
Run Code Online (Sandbox Code Playgroud)

这是错误:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)

我检查确保它uni确实是一个unicode对象:

u'\U00020d93\U000fb2e6\U0005709a\U000bc31e\U00080262\U00034f00\U00059941\U0002dd09\U00074f6d\U0009ef7a'
Run Code Online (Sandbox Code Playgroud)

有人可以开导我吗?

python unicode normalization unicode-normalization python-unicode

3
推荐指数
1
解决办法
476
查看次数

将3d坐标向量归一化为介于0和1之间

我有一个巨大的3D坐标矢量,我想对其进行归一化,以便它们位于尺寸为[0,1] x [0,1] x [0,1]的立方体内(即,每个x,y,z为坐标应该在0到1之间),我正在做的就是将所有坐标除以此向量中3D坐标的最大长度,但是这样我就不能使用负值处理坐标。谁能建议将这些坐标标准化的正确方法是什么?

3d normalization coordinates

3
推荐指数
1
解决办法
6550
查看次数

3NF中的循环依赖

我对标准化(3NF)有一个快速的问题。如果我有一个表定义为...

客户(用户名,名字,姓氏,年龄,性别,种族)

用户名确定名字,姓氏,年龄,性别,种族

但是..为了便于讨论,我们还可以假定firstName,lastName可用于唯一标识表中的行,因此firstName,lastName确定用户名,年龄,性别,种族

是3NF中的表,因为某些非主要属性(firstName,lastName)可用于确定表中的其他属性,但是PK(用户名)可以确定非主要属性,然后将其用于确定其他属性。

我知道由于循环依赖问题,这不在BCNF中,但我希望至少在3NF中存在。

在此先感谢您的帮助。

database database-design normalization database-normalization

3
推荐指数
1
解决办法
254
查看次数

如何使用MinMaxScaler sklearn规范化训练和测试数据

所以,我怀疑并一直在寻找答案.所以问题是我何时使用,

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()

df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']})

df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']])
df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else 1)
Run Code Online (Sandbox Code Playgroud)

这之后,我将训练和测试模型(A,B作为特征,C如标签),并得到一些准确度得分.现在我的疑问是,当我必须预测新数据集的标签时会发生什么.说,

df = pd.DataFrame({'A':[25,67,24,76,23],'B':[2,54,22,75,19]})
Run Code Online (Sandbox Code Playgroud)

因为当我对列进行标准化时A,B将根据新数据更改值的值,而不是根据模型将要训练的数据.那么,现在我的数据准备步骤之后的数据如下所示.

data[['A','B']] = min_max_scaler.fit_transform(data[['A','B']])
Run Code Online (Sandbox Code Playgroud)

价值AB将相对于Max和的Min价值而变化df[['A','B']].的准备数据df[['A','B']]是相对于Min Maxdf[['A','B']].

关于不同的数字,数据准备如何有效?我不明白这里的预测是否正确.

python machine-learning normalization scikit-learn sklearn-pandas

3
推荐指数
1
解决办法
9007
查看次数