如何在Python中获得字符串与另一个字符串类似的概率?
我想获得像0.9(意味着90%)等十进制值.最好使用标准的Python和库.
例如
similar("Apple","Appel") #would have a high prob.
similar("Apple","Mango") #would have a lower prob.
Run Code Online (Sandbox Code Playgroud) 在之前的一次采访中,我被问到了一个问题:'从0到10,你如何评价自己是程序员?'
我发现这是一个非常难以回答的问题,因为我不知道衡量我的技能有多好的指标.此外,了解您的表现如何有助于理解您需要改进哪些才能成为更好的程序员.
那么有没有办法知道你的工作有多好?
我想知道英里和米之间的用户首选单位是什么.似乎"Locale"类不允许这样做.
我有一个有限度量空间给定为(对称)k乘k距离矩阵.我想要一种算法(近似)在欧几里德空间R ^(k-1)中等距地嵌入它.虽然通过求解距离给出的方程组并不总是可以完成,但我正在寻找一种嵌入了一些(非常小的)可控误差的解决方案.
我目前使用多维缩放(MDS),输出维度设置为(k-1).在我看来,通常MDS可能会针对您尝试将环境嵌入维度减少到小于(k-1)(通常为2或3)的情况进行优化,并且可能有更好的算法用于我的限制案件.
问题:使用欧氏距离在R ^ {k-1}中实现大小为k的度量空间的好/快算法是什么?
一些参数和指针:
(1)我的k相对较小.说3 <k <25
(2)我实际上并不关心我是否嵌入了R ^ {k-1}.如果它简化了事物/使事情变得更快,任何R ^ N也会很好,只要它是等距的.如果我有一个更快的算法,或者如果我增加到R ^ k或R ^(2k + 1),我会很高兴.
(3)如果你可以指向python实现,我会更高兴.
(4)任何比MDS更好的东西都能奏效.
我为欺诈领域的文档二进制分类准备了几个模型.我计算了所有型号的对数损失.我认为它主要是测量预测的置信度,并且对数损失应该在[0-1]的范围内.我认为,当结果 - 确定课程不足以进行评估时,它是分类中的一项重要措施.因此,如果两个模型具有非常接近的acc,召回和精度,但是具有较低的对数损失函数,则应该选择它,因为在决策过程中没有其他参数/度量(例如时间,成本).
决策树的日志丢失为1.57,对于所有其他模型,它在0-1范围内.我如何解释这个分数?
我正在使用facebook api来提取一些指标,我想得到"谈论这个"指标,我从facebook api审查了"故事和人们谈论这个",我正在拉"page_storytellers"指标,但我发现此指标中的数字与Facebook原始页面中的"谈论此"指标不匹配.
我的问题是
facebook api如何为(page_storytellers metric)计算此值?"page_storytellers"指标是获得"谈论此指标"的正确指标吗?
谢谢你的帮助
我按照http://docs.aws.amazon.com/AutoScaling/latest/DeveloperGuide/as-scale-based-on-demand.html上的说明进行操作,以获得基于CPUUtilization的自动缩放组.我注意到mon-put-metric-alarm创建的警报创建了cloudwatch仪表板上列出的警报.这意味着在低cpu utlilization时我总是在ALARM状态下有一个度量.我可以在CloudWatch Web界面中隐藏自动缩放指标吗?
是否有一些强大的图像清晰度或模糊度量?我有各种不同饱和度参数的图像,并从不同的光学系统中捕获,我注意向用户展示像聚焦"质量"的东西.为了获得最集中的图像我使用Sobel-Tenengrad算子(高对比度像素的总和)得到的度量,但问题是对于不同的对象是非常不同的度量范围(取决于图像强度的未知参数,光学系统) - 需要一些公制,尽可能地说,与参考图像相比,图像的焦点不好,就像这是"坏"或"好"的聚焦图像.
我只是将sklearn中的日志丢失应用于逻辑回归:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html
我的代码看起来像这样:
def perform_cv(clf, X, Y, scoring):
kf = KFold(X.shape[0], n_folds=5, shuffle=True)
kf_scores = []
for train, _ in kf:
X_sub = X[train,:]
Y_sub = Y[train]
#Apply 'log_loss' as a loss function
scores = cross_validation.cross_val_score(clf, X_sub, Y_sub, cv=5, scoring='log_loss')
kf_scores.append(scores.mean())
return kf_scores
Run Code Online (Sandbox Code Playgroud)
但是,我想知道为什么由此产生的对数损失是负的.我希望它们是正面的,因为在文档中(参见上面的链接),日志丢失乘以-1,以便将其变为正数.
我在这里做错了吗?
有谁能告诉我如何从python中的ROC曲线计算等误差率(EER)?在scikit-learn中有计算roc曲线和auc的方法,但是找不到计算EER的方法.
from sklearn.metrics import roc_curve, auc
Run Code Online (Sandbox Code Playgroud)
ANSRWER:
我想我实现了自己.
ROC EER的概念是连接(1,0)和(0,1)的直线与roc曲线之间的交点.这是它相交的唯一点.对于a = 1且b = 1的直线,方程式为 x+y =1 (x/a +y/b =1.0) .因此交点将是真阳性率(tpr)和假阳性率(fpr)的值,其满足以下等式:
x + y - 1.0 = 0.0
Run Code Online (Sandbox Code Playgroud)
从而实现了如下方法:
def compute_roc_EER(fpr, tpr):
roc_EER = []
cords = zip(fpr, tpr)
for item in cords:
item_fpr, item_tpr = item
if item_tpr + item_fpr == 1.0:
roc_EER.append((item_fpr, item_tpr))
assert(len(roc_EER) == 1.0)
return np.array(roc_EER)
Run Code Online (Sandbox Code Playgroud)
所以这里一个值是错误率,另一个值是准确度.
可能有人可以帮我核实一下.
metric ×10
python ×3
scikit-learn ×3
algorithm ×2
loss ×2
amazon-ec2 ×1
android ×1
autoscaling ×1
eclipse ×1
facebook ×1
image ×1
java ×1
probability ×1
rating ×1
scipy ×1
similarity ×1