我遇到过许多NoSQL数据库和SQL数据库.有各种参数来衡量这些数据库的优缺点,可扩展性就是其中之一.水平和垂直缩放这些数据库有什么区别?
期望最大化如果采用一种概率方法对数据进行分类.如果我错了,请纠正我,如果它不是分类器.
这种EM技术的直观解释是什么?这里的期望是什么,最大化的是什么?
cluster-analysis machine-learning mathematical-optimization data-mining expectation-maximization
我在python中有一个非常大的数据框,我想删除在特定列中具有特定字符串的所有行.
例如,我想删除所有具有字符串"XYZ"的行作为数据帧的C列中的子字符串.
可以使用.drop()方法以有效的方式实现吗?
我有三个维度的大量向量.我需要基于欧几里德距离对这些进行聚类,使得任何特定聚类中的所有向量彼此之间的欧几里德距离小于阈值"T".
我不知道有多少个集群存在.最后,可能存在不属于任何聚类的个体向量,因为其欧氏距离不小于空间中任何向量的"T".
这里应该使用哪些现有的算法/方法?
algorithm math artificial-intelligence cluster-analysis machine-learning
当我们计算考虑精度和召回的F-测量时,我们采用两个测量的调和平均值而不是简单的算术平均值.
采用调和均值而不是简单平均值的直观原因是什么?
我正在看几个maven教程视频,然后我在安装maven后遇到了这个命令:
mvn archetype:create -DgroupId=com.di.maven -DartifactId=hello-world
Run Code Online (Sandbox Code Playgroud)
构建失败并引发以下错误:
Failed to execute goal org.apache.maven.plugins:maven-archetype-plugin:2.3:create
(default-cli) on project standalone-pom: Unable to parse configuration of mojo
org.apache.maven.plugins:maven-archetype-plugin:2.3:create for parameter #: Abstract
class or interface 'org.apache.maven.artifact.repository.ArtifactRepository' cannot be
instantiated -> [Help 1]
Run Code Online (Sandbox Code Playgroud)
是什么原因,我该如何解决?我在Ubuntu中以用户身份运行.
我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.
我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论?
nlp machine-learning text-analysis training-data sentiment-analysis
我理解Gradient Descent的作用.基本上它试图通过缓慢向下移动曲线来向局部最优解.我想了解计划梯度下降和牛顿方法之间的实际差异是什么?
从维基百科,我读了这条短线"牛顿的方法使用曲率信息来采取更直接的路线." 这直觉意味着什么?
machine-learning mathematical-optimization data-mining newtons-method gradient-descent
当我们有一个高度线性多项式用于拟合线性回归设置中的一组点时,为了防止过度拟合,我们使用正则化,并在成本函数中包含一个lambda参数.然后,该lambda用于更新梯度下降算法中的theta参数.
我的问题是我们如何计算这个lambda正则化参数?
data-mining ×5
algorithm ×1
database ×1
java ×1
math ×1
maven ×1
nlp ×1
nosql ×1
pandas ×1
python ×1
regression ×1
scalability ×1