通过阅读stackoverflow的评论,我发现z-score可能是用Python或perl计算的,但我还没有看到任何R.我错过了吗?是否可以用R完成?
如(http://en.wikipedia.org/wiki/Standard_score.)
z-score = (x-?)/?
x is a raw score to be standardized;
? is the mean of the population;
? is the standard deviation of the population.
Run Code Online (Sandbox Code Playgroud)
我相信有为此设计的R套餐?我们在哪里找到它们?或类似的规范化包?
我一直在使用"Unicode字符串"在Windows中,只要是......我了解的Unicode(如后毕业).然而,Win32API非常宽松地提到"unicode"总是让我感到困惑.特别是,MSN提到的"unicode"变体是UTF-16(尽管"宽字符"术语来自于它曾经是UCS-2,而不是Unicode).但是,它几乎没有提到Unicode规范化.
MSN有几页关于Unicode和Unicode规范化表单和函数来更改规范化表单.规范化页面甚至说:
Win32和.NET Framework支持所有四种规范化形式.
但是,我没有在文档中找到Win32 API使用(或理解)归一化形式的任何地方.
问题1:默认情况下,用户输入(例如编辑控件)和转换的标准化形式是什么MultiByteToWideChar()?
问题2:传递给Win32API函数的字符串必须是特定的规范化形式,还是内核和文件系统规范化无关?
我正在做一些测试,但是当我使用或不使用该normalize()方法时,我认为没有区别.但是ExampleDepot网站上的例子使用它.那么,它是为了什么?(文件对我来说也不清楚)
在Unicode规范化常见问题包括以下内容:
程序应始终将规范等效的Unicode字符串比较为相等... Unicode标准提供了可用于此的明确定义的规范化形式:NFC和NFD.
继续......
选择使用哪个取决于特定的程序或系统.NFC是一般文本的最佳形式,因为它与从传统编码转换的字符串更兼容.... NFD和NFKD对内部处理最有用.
我的问题是:
什么使NFC成为"一般文本"的最佳选择.什么定义"内部处理",为什么最好留给NFD?最后,只要使用相同的规范化形式比较两个字符串,两个形式可以互换,从不关注什么是"最佳"?
数据库设计问题.
假设我们有一个webapp或者使用20到40个字的笔记的标签.存储用户标签的最佳方法是什么.
例如,如果用户输入."I like to have #lunch at #sizzler"我们将句子存储为文本,我们可以将主题标签存储为JSON,逗号分隔列表或其他一些机制.
还值得指出的是标签需要可搜索,例如有多少人使用哈希标记午餐等.
关于此事的建议会很棒,在mysql中存储可变大小的输入时,我总是感到有点难过.每个音符可以有无限数量的标签,存储它们的最佳方式是什么?
我有一个使用电话号码作为唯一标识符的系统.出于这个原因,我想使用标准化格式格式化所有电话号码.因为我无法控制我的源数据,所以我需要自己解析这些数字并将它们格式化,然后再将它们添加到我的数据库中.
我即将编写一个可以读取电话号码并输出标准化电话格式的解析器,但在此之前,我想知道是否有人知道我可以用来格式化电话号码的任何预先存在的库.
如果没有预先存在的库,那么在创建可能不明显的此功能时,我应该记住哪些事项?
虽然我的系统目前只处理美国号码,但我打算尝试包括对国际号码的支持,以防万一有可能需要它.
编辑我忘了提到我正在使用C#.NET 2.0.
有没有任何standalonenish解决方案用于将国际unicode文本规范化为Python中的安全ID和文件名?
例如,转My International Text: åäö来my-international-text-aao
plone.i18n做很好的工作,但不幸的是它取决于zope.security和zope.publisher和其他一些包使得它十分脆弱的依赖.
我知道如果我想旋转矢量,则需要对四元数进行归一化.
但有没有任何理由不自动规范化四元数?如果有,那么四元数运算会导致非标准化四元数?
对不起,如果这个问题有点模糊.我还在尝试绕着四元数缠绕我.
我使用sklearn包中的confusion_matrix()方法为我的分类器计算了一个混淆矩阵.混淆矩阵的对角元素表示预测标签等于真实标签的点的数量,而非对角线元素是由分类器错误标记的元素.
我想将我的混淆矩阵归一化,使其仅包含0到1之间的数字.我想从矩阵中读取正确分类的样本的百分比.
我发现了几种方法如何标准化矩阵(行和列标准化),但我对数学知之甚少,并且不确定这是否是正确的方法.有人可以帮忙吗?
我想将我的数据分成火车和测试集,我应该在拆分之前或之后对数据进行规范化吗?在构建预测模型时是否有任何区别?提前致谢.
split regression machine-learning normalization train-test-split
normalization ×10
unicode ×3
python ×2
.net ×1
.net-2.0 ×1
c# ×1
hashtag ×1
java ×1
matrix ×1
mysql ×1
phone-number ×1
plone ×1
quaternions ×1
r ×1
regression ×1
scikit-learn ×1
split ×1
string ×1
windows ×1
xml ×1