规范化pandas DataFrame每一行的最常用的方法是什么?规范化列很容易,因此一个(非常难看!)选项是:
(df.T / df.T.sum()).T
Run Code Online (Sandbox Code Playgroud)
熊猫广播规则阻止df / df.sum(axis=1)这样做
我正在使用大型企业数据库.
我希望能够比较两个商业名称的相似性,看看它们是否可能是重复的.
下面是一个应该测试的企业名称列表,它们很可能是重复的,有什么好办法可以解决这个问题?
George Washington Middle Schl George Washington School Santa Fe East Inc Santa Fe East Chop't Creative Salad Co Chop't Creative Salad Company Manny and Olga's Pizza Manny's & Olga's Pizza Ray's Hell Burger Too Ray's Hell Burgers El Sol El Sol de America Olney Theatre Center for the Arts Olney Theatre 21 M Lounge 21M Lounge Holiday Inn Hotel Washington Holiday Inn Washington-Georgetown Residence Inn Washington,DC/Dupont Circle Residence Inn Marriott Dupont Circle Jimmy John's Gourmet Sandwiches Jimmy …
使用时我的色彩图始终存在问题imshow,有些颜色似乎变黑了.我终于意识到,imshow默认情况下,似乎规范化了我给它的浮点值矩阵.
我本来期望一个数组,例如[[0,0.25],[0.5,0.75]]从地图中显示适当的颜色,对应于那些绝对值,但0.75将被解释为1.在极端情况下,N×N数组为0.2(例如),只产生一个大的黑色方块,而不是人们所期望的0.2对应于色彩图(可能是20%的灰色).
有没有办法防止这种行为?当自定义颜色贴图具有许多不连续性时,特别令人讨厌,尺度的微小变化可能导致所有颜色完全改变.
我感兴趣的是实现一个架构,它有两个数据库,一个用于读操作,另一个用于写操作.我从来没有实现过这样的东西,并且总是构建单个数据库,高度规范化的系统,所以我不太清楚从哪里开始.我对这个问题有几个部分.
1.了解更多关于这种架构的资源是什么?
2.是否只是一个两个相同的模式之间进行复制的问题,或将您的模式不同而不同的操作,将正常化有所不同吗?
3.如何确保写入一个数据库的数据可以立即从第二个数据库中读取?
任何进一步的帮助,提示,资源将不胜感激.谢谢.
编辑
经过一些研究后,我发现这篇文章,我发现对那些感兴趣的人非常有用.
http://www.codefutures.com/database-sharding/
我发现这篇高度可扩展性的文章非常有用
何时将数据库设计描述为过度标准化?这种特征是绝对的吗?或者它取决于它在应用程序中的使用方式?谢谢.
我试图坚持保持数据库规范化的做法,但这导致需要运行多个连接查询.如果许多查询使用连接而不是调用可能包含冗余数据的单个表,是否会降低性能?
我正在使用当前稳定版0.13的scikit-learn.我正在使用类将线性支持向量分类器应用于某些数据sklearn.svm.LinearSVC.
在关于 scikit-learn文档中的预处理的章节中,我已经阅读了以下内容:
在学习算法的目标函数中使用的许多元素(例如支持向量机的RBF内核或线性模型的l1和l2正则化器)假设所有特征都以零为中心并且具有相同顺序的方差.如果某个要素的方差比其他要大一个数量级,那么它可能会主导目标函数并使估算工具无法按预期正确地学习其他要素.
问题1:标准化对于SVM通常是否有用,对于那些具有线性内核函数的人来说也是如此?
问题2:据我所知,我必须计算训练数据的均值和标准差,并使用该类对测试数据应用相同的转换sklearn.preprocessing.StandardScaler.但是,我不明白的是,在将训练数据提供给SVM分类器之前,我是否还必须转换训练数据或仅转换测试数据.
也就是说,我必须这样做:
scaler = StandardScaler()
scaler.fit(X_train) # only compute mean and std here
X_test = scaler.transform(X_test) # perform standardization by centering and scaling
clf = LinearSVC()
clf.fit(X_train, y_train)
clf.predict(X_test)
Run Code Online (Sandbox Code Playgroud)
或者我必须这样做:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train) # compute mean, std and transform training data as well
X_test = scaler.transform(X_test) # same as above
clf = LinearSVC()
clf.fit(X_train, y_train)
clf.predict(X_test)
Run Code Online (Sandbox Code Playgroud)
简而言之,我是否必须使用scaler.fit(X_train)或使用scaler.fit_transform(X_train)训练数据才能获得合理的结果 …
我在sklearn中使用MinMaxScaler模型来规范化模型的功能.
training_set = np.random.rand(4,4)*10
training_set
[[ 6.01144787, 0.59753007, 2.0014852 , 3.45433657],
[ 6.03041646, 5.15589559, 6.64992437, 2.63440202],
[ 2.27733136, 9.29927394, 0.03718093, 7.7679183 ],
[ 9.86934288, 7.59003904, 6.02363739, 2.78294206]]
scaler = MinMaxScaler()
scaler.fit(training_set)
scaler.transform(training_set)
[[ 0.49184811, 0. , 0.29704831, 0.15972182],
[ 0.4943466 , 0.52384506, 1. , 0. ],
[ 0. , 1. , 0. , 1. ],
[ 1. , 0.80357559, 0.9052909 , 0.02893534]]
Run Code Online (Sandbox Code Playgroud)
现在我想使用相同的缩放器来规范化测试集:
[[ 8.31263467, 7.99782295, 0.02031658, 9.43249727],
[ 1.03761228, 9.53173021, 5.99539478, 4.81456067],
[ 0.19715961, 5.97702519, 0.53347403, 5.58747666],
[ 9.67505429, …Run Code Online (Sandbox Code Playgroud) 我目前在我的数据库中有多个表,它们包含相同的"基本字段",如:
name character varying(100),
description text,
url character varying(255)Run Code Online (Sandbox Code Playgroud)
但我有一个基本的表,这是例子的多个专业化tv_series有田season,episode,airing,而movies表中有release_date,budget等等.
现在起初这不是问题,但我想创建第二个表,linkgroups使用这些专用表的外键调用.这意味着我会以某种方式将其自身标准化.
我听说过解决这个问题的一种方法是使用key-value-pair-table 对其进行规范化,但我不喜欢这个想法,因为它是一种"数据库中的数据库"方案,我没有办法要求某些键/字段也不需要特殊类型,以后获取和排序数据将是一个巨大的痛苦.
所以我现在正在寻找一种方法来在多个表之间"共享"主键,甚至更好:通过使用通用表和多个专用表来规范化它.
可以在一个表中引用两个外键引用其他表的一个主键吗?
EmployeeID是employee表中的主键,在时间表表中两次显示为外键.
很少有管理员用户代表其他员工填写时间表.
在时间表表格字段中,"TimsheetFor"将拥有该项目的员工ID,并且该字段为"EnteredBy"或"FilledBy"的人员将拥有填写此时间表的人员.
以下哪个选项是正确的?
注意:表格仅显示与此问题相关的字段.

normalization ×10
python ×5
sql ×4
database ×2
rdbms ×2
scikit-learn ×2
architecture ×1
asp.net ×1
dataframe ×1
imshow ×1
join ×1
matching ×1
matplotlib ×1
pandas ×1
postgresql ×1
similarity ×1
svm ×1
vb.net ×1