我试图了解在数据中应用 Normalizer 或应用 MinMaxScaler 或同时应用两者的效果。我已经阅读了 SKlearn 中的文档,并看到了一些使用示例。我知道 MinMaxScaler 很重要(对于扩展功能很重要),但是 Normalizer 呢?
我不清楚在我的数据中使用 Normamlizer 的实际结果。
MinMaxScaler 按列应用,Normalizer 按行应用。这意味着什么?我应该使用 Normalizer 还是只使用 MinMaxScale 还是应该同时使用两者?
我的train_data的类型是“单元 16 的数组”。大小为(96108,7,7)。因此,共有 96108 张图像。
该图像与一般图像不同。我的图像有一个 7x7 的传感器,49 个像素包含检测到的光的数量。而一张图像就是0到1秒检测到的光的数量。由于传感器在单位时间内随机检测,因此像素的最大值都不同。
如果所有图像的最大值是 255,我可以执行“训练数据/255”,但我无法使用除法,因为我拥有的图像的最大值都不同。我想让所有图像的像素值都为0到1,该怎么办?
有一个过期DVD租赁报告表.商店有同一张DVD的多个副本(它们都被编号以便识别).如何规范化此数据以满足3NF要求?
规范化http://img193.imageshack.us/img193/7804/normalization.jpg
这些数据适用于度假小屋的简单住宿日历.数据很简单,并存储每个小屋预订的日期.
cols将是cottage_id, booked_from_date, booked_until_date,我希望每个用户每年约60行*200-300个用户.
我应该把这是一张桌子吧?
我不是在询问索引还是分区,我在询问一个选择,在添加大号之间.列或将数据添加为行而不是.说明:我们目前有一个要求做出设计来处理多个属性和属性值对某些特定产品的产品可能会达到100万人次的纪录,并且每个产品可能有多个属性,因此对于ProductProperties表可能会达到数十亿美元.有些人想过将属性添加为ProductProperties表,Property1和value1,Property2和value2等中的列....如果产品不包含属性的值,则此属性的相关字段将为null.此外,他们还将添加大约80-100个属性,以便能够动态地覆盖各种属性.建筑师拒绝这种方法,因为这不是一个好的设计.任何人都可以告诉我如何达到良好的设计和良好的性能.谢谢
好的我知道你可能会因为问这个问题而杀了我,但是我和同事讨论了一个关于我们的数据库表的友好程序员问题,他问了一个我知道答案的问题,但我不能解释这是更好的方法.
为了简化问题,我将简化情况,我们有一个相当大的人/用户表.现在,在存储的其他数据中,所讨论的数据如下:我们有一个simNumber,cellNumber和该sim的ipAddress.
现在我说我们应该创建一个表,让它称之为SimTable并将这3个条目放入sim表中,然后在UsersTable中放入一个FK链接两者.为什么?因为这就是我一直教给你的桌子!好的,所以在这方面一切都很好.
但现在我的朋友对我说是的,但现在当你想查询用户的电话号码时,SQL现在必须去:
现在当我去请求10000个用户的电话号码时,完成的操作数量会严重增加.
与另一种方法相反
现在这个论点纯粹基于表现.尽管我理解为什么我们会对数据进行规范化(删除冗余数据,可维护性,在一个表中对数据进行更改等等).在我看来,在一个表中使用数据的方法会更快或者至少会减少任务/操作给我我想要的数据?
那么这种情况是怎样的呢?我希望我没有问过任何愚蠢的事情,这是一大早所以如果我不清楚的话,请原谅我
MS SQL Server 2012中涉及的技术
[编辑]下面的这篇文章也涉及我上面提到的一些概念 http://databases.about.com/od/specificproducts/a/Should-I-Normalize-My-Database.htm
尽管阅读了书籍和文章,但我无法找到下面的具体答案.
OLAP和OLTP的最小和最大标准化程度应该是多少?
我认为,OLTP的最小值是第3范式,OLAP的最大值是第2范式.
我们可以请详细说明以补充答案吗?
olap database-design oltp normalization database-normalization
我试图将数据帧中的每个值绑定在0.01和0.99之间
我使用以下方法成功地将0到1之间的数据标准化:.apply(lambda x: (x - x.min()) / (x.max() - x.min()))如下:
df = pd.DataFrame({'one' : ['AAL', 'AAL', 'AAPL', 'AAPL'], 'two' : [1, 1, 5, 5], 'three' : [4,4,2,2]})
df[['two', 'three']].apply(lambda x: (x - x.min()) / (x.max() - x.min()))
df
Run Code Online (Sandbox Code Playgroud)
现在我想绑定0.01到0.99之间的所有值
这是我尝试过的:
def bound_x(x):
if x == 1:
return x - 0.01
elif x < 0.99:
return x + 0.01
df[['two', 'three']].apply(bound_x)
Run Code Online (Sandbox Code Playgroud)
df
但是我收到以下错误:
ValueError: ('The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().', …Run Code Online (Sandbox Code Playgroud) 我使用此R代码将数据标准化为最小值和最大值:
normalize <- function(x) {
return ((x - min(x)) / (max(x) - min(x)))
}
mydata <- as.data.frame(lapply(mydata , normalize))
Run Code Online (Sandbox Code Playgroud)
如何对数据进行非规范化?
我正在做一个sklearn家庭作业,我不明白为什么要用训练平均值和sd标准化和标准化测试数据.我怎样才能在Python中实现它?这是我对列车数据的实施:
digits = sklearn.datasets.load_digits()
X= digits.data
Y= digits.target
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3,train_size=0.7)
std_scale = preprocessing.StandardScaler().fit(X_train)
X_train_std = std_scale.transform(X_train)
#X_test_std=??
Run Code Online (Sandbox Code Playgroud)
对于火车我认为这是正确的,但对于测试?
normalization ×10
python ×4
database ×3
scikit-learn ×2
sql ×2
dataframe ×1
image ×1
minmax ×1
mysql ×1
numpy ×1
olap ×1
oltp ×1
pandas ×1
performance ×1
php ×1
r ×1
sql-server ×1