我正在尝试研究如何实现一些机器学习库,以帮助我找出每个参数的正确权重,以便做出正确的决定.
更详细:
上下文:尝试为html文件实现发布提取器的日期.这是针对新闻网站的,所以我没有可以使用的通用日期格式.我在python中的dateutil中使用解析器,这做得非常好.我最终得到了一个可能的发布日期列表(html文件中的所有日期).
从一组参数,例如关闭标签,接近日期子字符串的单词等.我根据作为发布日期的可能性对列表进行排序.每个参数的权重都以某种方式进行了有根据的猜测.
我想实现一种机器学习算法,在训练期(提供实际发布日期)之后,它确定每个参数的权重应该是多少.
我一直在阅读python(pyML,scikit-learn,pybrain)中不同机器学习库的文档,但我没有找到任何有用的东西.我也读过这个,并且有一个很好的例子来确定蘑菇是否可以食用.
注意:我在python中工作.
我非常感谢你的帮助.
我正在使用基于 Unet 的模型对生物医学图像执行图像分割。每个图像都是 224x224,我有四个类,包括背景类。每个掩码的大小为 (224x224x4),因此我的生成器创建了一批大小为 (16x224x224x4) 的 numpy 数组。我将掩码的值重铸为 1 或 0,因此对于每个类,相关通道中都存在 1。图像也按 1/255 缩放。我使用骰子分数作为训练期间的性能指标,使用 1 骰子分数作为损失函数。我在训练期间的分数似乎高达 0.89,但我发现当我在测试集上预测时,我总是在预测背景类。我只在几百张图像上训练了 10 个 epochs(虽然我可以访问更多)这可能会影响模型,但我以为我' d 仍然得到其他类别的预测,所以我假设主要问题是类别不平衡。从在线查看 sample_weight 参数可能是答案,但我不确定我打算如何实现实际的重量部分?大概我需要使用图层将权重应用于模型中某个点的像素数组,但我不确定如何。任何帮助将非常感激?
class DataGenerator(keras.utils.Sequence):
def __init__(self, imgIds, maskIds, imagePath, maskPath, batchSize=16, imageSize = (224, 224, 3), nClasses=2, shuffle=False):
self.imgIds = imgIds
self.maskIds = maskIds
self.imagePath = imagePath
self.maskPath = maskPath
self.batchSize = batchSize
self.imageSize = imageSize
self.nClasses = nClasses
self.shuffle = shuffle
def __load__(self, imgName, maskName):
img = cv2.imread(os.path.join(self.imagePath,imgName))
img = cv2.resize(img, (self.imageSize[0], self.imageSize[1]))
mask = cv2.imread(os.path.join(self.maskPath,maskName)) …Run Code Online (Sandbox Code Playgroud) weighting image-segmentation deep-learning conv-neural-network tf.keras
我正在使用此处列出的代码:
http://msdn.microsoft.com/en-us/library/ms553069.aspx
在设置属性后添加一行作为.update()的调用以保存更改,但即使权重为10,000,我的属性的搜索结果仍然在底部,特别是在标题下方.还有一些其他的事情需要做才能让权重传播吗?
我还尝试将标题,作者和文件名设置为0,将属性(关键字)设置为9999,并将属性的长度标准化设置为0.结果稍微移位,但搜索与属性匹配的关键字仍然不符合.
所有测试都是在完成爬网之后完成的,重置IIS并回收共享服务应用程序池.
我可以为您提供您可能要求的任何额外信息.
谢谢,斯特凡
更新(6-19-09):为此增加了500的赏金.关于这个功能的在线信息很少,显然是一个很好的答案,将为互联网社区提供巨大的服务.它可能也节省了我一个星期:)
更新2(6-19-09):架构基本上是这样的:OOB sharepoint文档内容类型,添加了文本字段"关键字".附加到ows_keywords(文本)的托管属性.
更新3(6-19-09):Codeplex的Sharepoint Search Bench帮助了很多搜索.
更新4(6-19-09):我已经找到了一个解决方案,它涉及使用相同的爬网属性创建许多(现在5个)更多托管属性.每个重量设置为不寻常的(如9999).这些足以将关键字结果提升到顶部.但不太理想.仍在寻找解决方案.
Update 4中的解决方案就是我最终的解决方案.正如拉尔斯评论的那样,搜索不是很灵活,尽管对物业权重进行了调整,但效果并不总是你所期望的.
我正在寻找一个Python库来替换R库“Survey”中的rake函数(https://www.rdocumentation.org/packages/survey/versions/4.0/topics/rake)
我发现并尝试了 Quantipy,但与在同一数据集上使用 R 生成的权重相比,权重质量很差。我找到了 PandaSurvey,但似乎无法正常工作(并且文档非常差)
我很惊讶在谷歌上没有找到太多关于这个主题的信息。然而,如果您正在处理民意调查,那么它是一个必不可少的功能。Python 是一种数据科学语言,这令人惊讶。但也许我错过了。
非常感谢!
我正在尝试按两列排序表,每列都有不同的权重.第一个是uptime0到1之间的值,权重为0.3.第二votes个是非负整数,权重为0.7.
加权需要乘以0-1之间的值,因此我将通过将每行的投票数除以任何行所持的最大投票数来获得投票.
到目前为止,这是我的查询,它几乎可以工作:
SELECT addr
FROM servers
ORDER BY (0.3 * uptime) +
(0.7 * (votes / 100)) DESC
Run Code Online (Sandbox Code Playgroud)
100是硬编码的,应该是最大值votes.使用MAX(votes)使查询仅返回具有最高投票数的记录.这可以在一个查询中完成吗?
我通常使用mfx包和logitmfx函数生成logit模型边际效应.然而,我目前使用的调查具有权重(由于某些人群中的过采样,其对样本中DV的比例具有很大影响)并且logitmfx似乎没有任何方式来包括权重.
我用svyglm为模型拟合如下:
library(survey)
survey.design <- svydesign(ids = combined.survey$id,
weights = combined.survey$weight,
data = combined.survey)
vote.pred.1 <- svyglm(formula = turnout ~ gender + age.group +
education + income,
design = survey.design)
summary(vote.pred.1)
Run Code Online (Sandbox Code Playgroud)
如何从这些结果中产生边际效应?
weighting ×6
python ×2
r ×2
survey ×2
glm ×1
mysql ×1
optimization ×1
properties ×1
rake ×1
search ×1
sharepoint ×1
sql ×1
sql-order-by ×1
tf.keras ×1