我是神经网络的新手(只是免责声明)。
我有一个基于 8 个特征预测混凝土强度的回归问题。我首先做的是使用最小-最大标准化重新调整数据:
# Normalize data between 0 and 1
from sklearn.preprocessing import MinMaxScaler
min_max = MinMaxScaler()
dataframe2 = pd.DataFrame(min_max.fit_transform(dataframe), columns = dataframe.columns)
Run Code Online (Sandbox Code Playgroud)
然后将数据帧转换为numpy数组并将其拆分为X_train,y_train,X_test,y_test。现在这是网络本身的 Keras 代码:
from keras.models import Sequential
from keras.layers import Dense, Activation
#Set the params of the Neural Network
batch_size = 64
num_of_epochs = 40
hidden_layer_size = 256
model = Sequential()
model.add(Dense(hidden_layer_size, input_shape=(8, )))
model.add(Activation('relu'))
model.add(Dense(hidden_layer_size))
model.add(Activation('relu'))
model.add(Dense(hidden_layer_size))
model.add(Activation('relu'))
model.add(Dense(1))
model.add(Activation('linear'))
model.compile(loss='mean_squared_error', # using the mean squared error function
optimizer='adam', # using the Adam optimiser
metrics=['mae', …Run Code Online (Sandbox Code Playgroud) 假设我有一个查询来获取电影集合:
useQuery(['movies'], getMovies)
Run Code Online (Sandbox Code Playgroud)
现在,如果我只想重新获取一部电影而不是所有电影,我可以编写如下内容:
useQuery(['movies', movieId], () => getMovie(movieId))
Run Code Online (Sandbox Code Playgroud)
问题是我使用不同的查询键并且它会重复数据。我会将这部电影放入缓存中两次。
那么,更新获取的集合中的单个项目的反应查询方式是什么?useQuery(['movies'])当获取单个项目时,所有使用的组件都应该自动更新。
我做了一个rails模型
script/generate model Customer name:string address:string city:string state:string zip:integer [...]
Run Code Online (Sandbox Code Playgroud)
我用5000个客户填充了数据库并开始构建我的应用程序.现在我意识到我的模型没有规范化:我经常在同一个地址有多个客户!如果我希望按地址执行某些操作,例如邮件,则会导致问题.我想拥有的是Address模型,Customer模型和Mailing模型.
是否有轨道方式来规范现有模型,将其分为两个模型?或者我应该编写一个脚本来规范化现有数据,然后相应地生成新模型?
我正在尝试规范化地址.
下图显示了我认为的这个问题的相关表格.我想知道如何将ZipCodes集成到模型中.这将是国际地址,所以我知道Zip/PostalCode并没有在任何地方使用.我认为City :: ZipCode是1 :: 0-n(我读过其他人说这并非总是如此,但他们从未提供过证据).如果他们是正确的,那么我想这将是一个多对多的关系.由于每个地址最多只能包含一个ZipCode,而ZipCode可以包含许多地址,因此我在如何规范化此模型时会丢失.
由于地址可能包含或不包含ZipCode,因此我需要避免在地址表中将其作为可空的FK.
编辑: 只是想强调所提供的实体和属性从实际数据库中大幅缩减.它仅用作参考并解决我对将zipcodes包含在模型中的问题的关注.

database zipcode database-design normalization relational-database
我想规范化我从这个给定代码得到的tfidf结果:
for (int docNum = 0; docNum < ir.numDocs(); docNum++) {
TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents");
if (tfv == null) {
// ignore empty fields
continue;
}
String[] tterms = tfv.getTerms();
int termCount = tterms.length;
int[] freqs = tfv.getTermFrequencies();
for (int t = 0; t < termCount; t++) {
double idf = ir.numDocs() / ir.docFreq(new Term("contents", tterms[t]));
System.out.println(" " + tterms[t] + " " + freqs[t]*Math.log(idf));
}
}
Run Code Online (Sandbox Code Playgroud)
此代码的输出是:
area 0.0
areola 5.877735781779639
ari 3.9318256327243257
art 1.6094379124341003
artifici 1.0986122886681098
assign …Run Code Online (Sandbox Code Playgroud) 我需要在我的工作中为各个位置创建一个调度程序.我需要为每个特定位置安排从早上8点到下午5点的十五分钟时段.我试图围绕所需的数据库设计.
一些参数:
每次我草拟这一点,我都违反了一些数据库规范化规则.主要目标是能够查询特定位置以查看打开的"插槽"并显示它们.任何人都知道我应该如何构建我的表,以便我刚才描述的查询不必更加努力地工作?
我需要在unicode字符串上评估levenshtein编辑距离,这意味着需要对包含相同内容的两个字符串进行规范化,以避免偏向编辑距离.
以下是我为测试生成随机unicode字符串的方法:
def random_unicode(length=10):
ru = lambda: unichr(random.randint(0, 0x10ffff))
return ''.join([ru() for _ in xrange(length)])
Run Code Online (Sandbox Code Playgroud)
这是一个失败的简单测试用例:
import unicodedata
uni = random_unicode()
unicodedata.normalize(uni, 'NFD')
Run Code Online (Sandbox Code Playgroud)
这是错误:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-9: ordinal not in range(128)
Run Code Online (Sandbox Code Playgroud)
我检查确保它uni确实是一个unicode对象:
u'\U00020d93\U000fb2e6\U0005709a\U000bc31e\U00080262\U00034f00\U00059941\U0002dd09\U00074f6d\U0009ef7a'
Run Code Online (Sandbox Code Playgroud)
有人可以开导我吗?
python unicode normalization unicode-normalization python-unicode
我有一个巨大的3D坐标矢量,我想对其进行归一化,以便它们位于尺寸为[0,1] x [0,1] x [0,1]的立方体内(即,每个x,y,z为坐标应该在0到1之间),我正在做的就是将所有坐标除以此向量中3D坐标的最大长度,但是这样我就不能使用负值处理坐标。谁能建议将这些坐标标准化的正确方法是什么?
我对标准化(3NF)有一个快速的问题。如果我有一个表定义为...
客户(用户名,名字,姓氏,年龄,性别,种族)
和用户名确定名字,姓氏,年龄,性别,种族
但是..为了便于讨论,我们还可以假定firstName,lastName可用于唯一标识表中的行,因此firstName,lastName确定用户名,年龄,性别,种族
是3NF中的表,因为某些非主要属性(firstName,lastName)可用于确定表中的其他属性,但是PK(用户名)可以确定非主要属性,然后将其用于确定其他属性。
我知道由于循环依赖问题,这不在BCNF中,但我希望至少在3NF中存在。
在此先感谢您的帮助。
database database-design normalization database-normalization
所以,我怀疑并一直在寻找答案.所以问题是我何时使用,
from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']})
df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']])
df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else 1)
Run Code Online (Sandbox Code Playgroud)
这之后,我将训练和测试模型(A,B作为特征,C如标签),并得到一些准确度得分.现在我的疑问是,当我必须预测新数据集的标签时会发生什么.说,
df = pd.DataFrame({'A':[25,67,24,76,23],'B':[2,54,22,75,19]})
Run Code Online (Sandbox Code Playgroud)
因为当我对列进行标准化时A,B将根据新数据更改值的值,而不是根据模型将要训练的数据.那么,现在我的数据准备步骤之后的数据如下所示.
data[['A','B']] = min_max_scaler.fit_transform(data[['A','B']])
Run Code Online (Sandbox Code Playgroud)
价值A和B将相对于Max和的Min价值而变化df[['A','B']].的准备数据df[['A','B']]是相对于Min Max的df[['A','B']].
关于不同的数字,数据准备如何有效?我不明白这里的预测是否正确.
python machine-learning normalization scikit-learn sklearn-pandas
normalization ×10
database ×2
python ×2
scikit-learn ×2
3d ×1
coordinates ×1
keras ×1
mysql ×1
normalize ×1
numpy ×1
react-query ×1
reactjs ×1
scheduling ×1
tf-idf ×1
unicode ×1
zipcode ×1