有没有任何standalonenish解决方案用于将国际unicode文本规范化为Python中的安全ID和文件名?
例如,转My International Text: åäö来my-international-text-aao
plone.i18n做很好的工作,但不幸的是它取决于zope.security和zope.publisher和其他一些包使得它十分脆弱的依赖.
norm在MATLAB中调用矩阵时,它返回所谓的"矩阵范数"(标量值),而不是矢量范数数组.有没有办法在没有循环的情况下获得矩阵中每个向量的范数并利用MATLAB的向量化?
在进行回归或分类时,预处理数据的正确(或更好)方法是什么?
以上哪一项更正确,还是预处理数据的"标准化"方式?"标准化"是指标准化,线性缩放或其他一些技术.
regression classification machine-learning normalization pca
我正在尝试使用Numpy在Python中使用一些时间序列分析.
我有两个中等大小的系列,每个都有20k值,我想检查滑动相关性.
corrcoef给我输出一个自相关/相关系数矩阵.在我的案例中没有任何有用的东西,因为其中一个系列包含滞后.
相关函数(在mode ="full"中)返回一个40k元素列表,看起来像我想要的结果类型(峰值远离列表中心,如滞后所示),但是这些值都很奇怪 - 高达500,当我期待从-1到1的东西时.
我不能把它全部除以最大值; 我知道最大相关性不是1.
我怎样才能规范化"互相关"("完全"模式中的相关性),因此返回值将是每个滞后步骤的相关性,而不是那些非常大的奇怪值?
我想创建基本的matlab程序,规范给定范围内给定的整数数组.
但在所有地方,我都看到了[0,1]或[-1,1]范围内的归一化.找不到变量范围归一化.如果您编写matlab代码或变量范围的公式,我将不胜感激.
谢谢你的想法.
我在Javascript两个字符串:"_strange_chars_µö¬é@zendesk.com.eml"(f1)和"_strange_chars_µö¬é@zendesk.com.eml"(f2).乍一看,它们看起来完全相同(事实上,在StackOverflow上,它们可能是;我不确定将它们粘贴到这样的形式时会发生什么.)然而,在我的应用程序中,
f1[16] // ö
f2[16] // o
f1[17] // ¬
f2[17] // ?
Run Code Online (Sandbox Code Playgroud)
也就是说,在f1使用ö字符,f2使用一个ö和音调符号¨作为一个单独的字符.我能做什么比较才能证明这两个字符串"相等"?
javascript string unicode normalization unicode-normalization
所以在API文档中,http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize.它说
返回Unicode字符串unistr的正常表单形式.表单的有效值为"NFC","NFKC","NFD"和"NFKD"
文档相当模糊,有人可以valid values用一些例子解释一下吗?
我有一个包含一些数字的列的excel文件,我需要使用这个公式x-min(分布)/ max(分布)-min(分布)来规范化0到1之间的分布.任何帮助将不胜感激.
所以我一直致力于这个项目的工作,我正在编写一个与我无法控制的数据库交互的php网站.该数据库是由一位同事"设计"的,该员工已经在公司工作了很多年; 所以最终决定留待他们决定.
当我第一次被带到这个项目上时,我去了同事并解释说数据库模式似乎有缺陷.我解释了规范化数据库以确保数据完整性问题,节省磁盘空间以及它将使程序员(我)工作更容易的重要性.我甚至举例说明了当前设计中如何发生插入,删除和更新异常.然而,同事向我解释说,他们不想让项目数据库过于复杂,并且不会改变时期.
所以现在我已经进入项目的几个月了,每次我必须加入两个表来在一个彼此具有一对一关系的属性中插入一个值时,我就会把头发拉出来.(所以属性应该只是主要关系的一个属性.)数据库看起来很可怕,而且我害怕随着时间的推移,这将会回到我身上,因为我编写了使用数据库的前端.
有没有人有任何关于如何与"优秀"同事交谈以正确设计数据库的建议?或者任何有关如何避免光顾未来的设计的建议我没有参与任何设计?我是否应该在将来拒绝这样的项目?在我的代码中留下评论说数据库不是我在做什么?
谢谢.
编辑:回复评论的其他信息......
我知道数据库的非规范化对于速度目的是有用的,所以我不会忽略它.对于那些没有听说过这种策略的读者,我将举例说明.数据库设计者通常具有列出用户的街道,城市,州和邮政编码的地址关系.虽然每个人都知道邮政编码决定了城市和州,因此构成了一个将邮政编码索引到城市和州的表格.数据库设计人员通常会将这两个表组合在一起,对它们进行去规范化,使用户地址的每个查询都需要从地址表到zip表的连接.这最终加速了查询过程,并且是数据库设计部分非规范化的合理推理.
为了在这里填写一些细节,数据库是为巡回请求系统设计的,因此其中的数据与访问者信息,日期等有关.当前数据库使用的模式从开始到结束是不可预测的.从变量命名模式中最简单的不一致(例如:num_of_visitors,arrivalMethod等)到为单个状态一对一属性定义的单独关系.示例:statusID表示巡视请求的状态,它只能从一组可能的状态(已批准,已拒绝,待处理,已取消)中选择一个有效状态.由于某种原因,数据库的状态表包含:tour_id(主要)旅游关系的关键),statusID.这允许为每个巡回请求定义多个状态.根据设计,巡回请求应该在任何给定时间仅处于一种状态.所以这是设计中的一个缺陷而不是对我的疏忽.
我想在MS SQL Server 2005中创建一个表来记录某些系统操作的详细信息.从下面的表格设计中可以看出,除了之外的每一列Details都是不可为空的.
CREATE TABLE [Log]
(
[LogID] [int] IDENTITY(1,1) NOT NULL,
[ActionID] [int] NOT NULL,
[SystemID] [int] NOT NULL,
[UserID] [int] NOT NULL,
[LoggedOn] [datetime] NOT NULL,
[Details] [varchar](max) NULL
)
Run Code Online (Sandbox Code Playgroud)
因为Details列中不会始终包含数据.将此列存储在单独的表中并提供指向它的链接是否更有效?
CREATE TABLE [Log]
(
[LogID] [int] IDENTITY(1,1) NOT NULL,
[ActionID] [int] NOT NULL,
[SystemID] [int] NOT NULL,
[UserID] [int] NOT NULL,
[LoggedOn] [datetime] NOT NULL,
[DetailID] [int] NULL
)
CREATE TABLE [Detail]
(
[DetailID] [int] IDENTITY(1,1) NOT NULL,
[Details] [varchar](max) NOT NULL …Run Code Online (Sandbox Code Playgroud) normalization ×10
python ×3
unicode ×3
matlab ×2
arrays ×1
correlation ×1
database ×1
encoding ×1
excel ×1
javascript ×1
matrix ×1
numpy ×1
pca ×1
plone ×1
regression ×1
sql-server ×1
string ×1
time-series ×1
varchar ×1