小编Lon*_*guy的帖子

要采用多少主要组件?

我知道主成分分析在矩阵上进行SVD​​,然后生成特征值矩阵.要选择主成分,我们必须只取前几个特征值.现在,我们如何决定我们应该从特征值矩阵中获取的特征值的数量?

machine-learning data-mining svd

33
推荐指数
6
解决办法
5万
查看次数

如何检查word2vec训练模型中是否存在密钥

我使用Gensim的文档语料库训练了一个word2vec模型.一旦模型正在训练,我正在编写以下代码以获得单词的原始特征向量说"视图".

myModel["view"]
Run Code Online (Sandbox Code Playgroud)

但是,我得到了一个单词的KeyError,这可能是因为它不存在作为word2vec索引的键列表中的键.在尝试获取原始特征向量之前,如何检查索引中的键是否退出?

python gensim word2vec

29
推荐指数
3
解决办法
2万
查看次数

没有这样的方法异常Hadoop <init>

当我从命令提示符运行Hadoop .jar文件时,它会抛出一个异常,说没有这样的方法StockKey方法.

StockKey是我为自己的键类型定义的自定义类.

这是一个例外:

12/07/12 00:18:47 INFO mapred.JobClient: Task Id :   
attempt_201207082224_0007_m_000000_1, Status : FAILED

java.lang.RuntimeException: java.lang.NoSuchMethodException: SecondarySort$StockKey.      
<init>()
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)
    at org.apache.hadoop.io.WritableComparator.newKey(WritableComparator.java:109)
    at org.apache.hadoop.io.WritableComparator.<init>(WritableComparator.java:95)
    at org.apache.hadoop.io.WritableComparator.get(WritableComparator.java:51)
    at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:795)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:817)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:383)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:325)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:270)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at     
   org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1127)
    at org.apache.hadoop.mapred.Child.main(Child.java:264)
Run Code Online (Sandbox Code Playgroud)

java hadoop mapreduce

28
推荐指数
2
解决办法
2万
查看次数

逻辑回归的成本函数

在最小二乘模型中,成本函数被定义为预测值和实际值之间的差的平方,作为输入的函数.

当我们进行逻辑回归时,我们将成本函数更改为对数函数,而不是将其定义为sigmoid函数(输出值)和实际输出之间差异的平方.

是否可以更改和定义我们自己的成本函数来确定参数?

regression machine-learning data-mining

21
推荐指数
2
解决办法
2万
查看次数

R中的removeSparseTerms如何工作?

我在R中使用removeSparseTerms方法,它需要输入一个阈值.我还读到,值越高,返回矩阵中保留的项数就越多.

这种方法如何工作以及它背后的逻辑是什么?我理解稀疏性的概念,但这个阈值是否表明一个术语应该出现多少文件,或者其他比例等等?

r lda tm

18
推荐指数
2
解决办法
3万
查看次数

如何确定哪个旧版本的R包与我的R版本兼容

我正在尝试安装"tm"软件包,但后来我收到一条错误消息,说我的R版本"tm"不可用

package ‘tm’ is not available (for R version 3.0.2)
Run Code Online (Sandbox Code Playgroud)

但后来我看到有人建议我从中下载存档版本

http://cran.r-project.org/src/contrib/Archive/tm/?C=M;O=A
Run Code Online (Sandbox Code Playgroud)

然后尝试从源代码安装.

我的问题是如何确定列表中的哪个文件与我的R版本兼容?

r package tm

18
推荐指数
3
解决办法
2772
查看次数

在hadoop中查看文件的块数

在Hadoop文件系统中,如何查看文件被破坏的块数?

hadoop hdfs

17
推荐指数
1
解决办法
2万
查看次数

如何防止将重复对象添加到ArrayList

可能重复:
防止arraylist中的重复条目

我有一个特定班级C的arraylist.

List<C> myList = new ArrayList<C>();
Run Code Online (Sandbox Code Playgroud)

C类有两个属性即.

String str1;
String str2;
Run Code Online (Sandbox Code Playgroud)

现在,当我将类型C的对象添加到ArrayList myList时,我想检查列表中是否已存在一个对象,其中str1和str2的值与对象的参数(str1和str2)的值相匹配我即将补充.

有没有有效的方法来做到这一点,而不必每次遍历完整列表并检查参数之间的匹配?

java oop data-structures

16
推荐指数
3
解决办法
9万
查看次数

在Scikit Learn中控制Logistic回归中的阈值

LogisticRegression()scikit-learn高度不平衡的数据集中使用该 方法.我甚至把这个class_weight功能变成了auto.

我知道在Logistic回归中,应该可以知道特定一对类的阈值是多少.

是否有可能知道该LogisticRegression()方法设计的每个一对一类的阈值是多少?

我没有在文档页面中找到任何内容.

它是否默认将0.5值作为所有类的阈值应用,而不管参数值如何?

classification machine-learning scikit-learn logistic-regression

15
推荐指数
4
解决办法
3万
查看次数

Hive在读取时间内强制执行架构?

我在这里的讲座中遇到的这两个陈述的区别和含义是什么:

1. Traditional databases enforce schema during load time.
Run Code Online (Sandbox Code Playgroud)

2. Hive enforces schema during read time.
Run Code Online (Sandbox Code Playgroud)

hadoop hive mapreduce hdfs

13
推荐指数
1
解决办法
9141
查看次数