小编Yav_var的帖子

如何对用lucene索引的文档进行分类

我已经将一组文档与Lucene分类(字段:内容,类别).每个文档都有自己的类别,但其中一些标记为未分类.有没有办法在java中轻松地对这些文档进行分类？

java lucene classification machine-learning

5
推荐指数

1
解决办法

6128
查看次数

融合持久性的实际应用

我只是阅读Brodal等人的Purely Functional Worst Case Constant Time Catenable Sorted Lists.他们在数据结构的背景下对不同类型的持久性的介绍给我一个明显的问题:

汇合持久性:可以更新和查询所有版本,另外,可以组合两个版本以生成新版本.注意,在这种情况下,可以通过重复地将其与自身连接来在多项式时间内创建指数大小的结构.

通过反复加入自身,能够在多项式时间内创建"指数大小"结构的实际应用是什么？

algorithm persistence purely-functional data-structures

4
推荐指数

1
解决办法

1125
查看次数

IOMeter iobw.tst文件

我正在使用开源IOMeter来测试我的系统的IO性能.我还是不明白使用iobw.tst文件.我的意思是假设如果我在我的机器上启动一些IO进程,IOMeter应该显示统计信息.iobw.tst文件在哪里适合？

3
推荐指数

1
解决办法

9968
查看次数

在用户点击的基础上对solr结果进行排序？

我正面临基于用户点击日志排序Solr结果的问题.我希望首先获得更多访问结果.有谁知道如何在Solr中配置或实现此类属性？

非常感谢你.

lucene search solr information-retrieval collective-intelligence

3
推荐指数

1
解决办法

1330
查看次数

如何判断两个网页内容是否相似？

鉴于2种HTML源,我想先提取的主要内容进行使用类似它这样.还有其他更好的库 - 我是专门寻找Python/Javascript的吗？

一旦我有两个提取的内容,我想返回0到1之间的分数,表示它们有多相似,例如来自CNN和BBC的同一主题的新闻文章将具有更高的相似性分数,因为它们属于同一主题或与之相关的网页Amazon.com和Walmart.com上的同一产品也会获得高分.我怎样才能做到这一点？是否有现有的库已经这样做了？我可以使用哪些好的库？基本上我正在寻找自动摘要,关键字提取,命名实体识别和情感分析的组合.

python nlp machine-learning text-mining semantic-analysis

3
推荐指数

1
解决办法

388
查看次数

java版仍然显示为1.4 linux

java -version仍然返回旧的java版本.我有红帽linux

我安装了jdk 1.5 int eh follwing path并更新了bask配置文件并做了一个源但仍然是java版本显示1.4

JAVA_HOME =在/ usr /本地/ JDK/jdk1.5.0_10 /斌/ java的路径已经/usr/local/jdk/jdk1.5.0_10/bin

但我仍然看到java -version甚至从bin目录/usr/local/jdk/jdk1.5.0_10/bin中看到如下

java -version

java版"1.4.2"gcj(GCC)3.4.6 20060404(Red Hat 3.4.6-10.0.1)版权所有(C)2006 Free Software Foundation,Inc.这是免费软件; 查看复制条件的来源.没有保修; 甚至不适用于适销性或特定用途的适用性.

java linux version classpath

2
推荐指数

1
解决办法

1万
查看次数

Facebook图搜索:信息检索算法

有一个题为" Facebook图搜索如何工作？ " 的封闭式问题.

简单来说,OP问(甚至给出了他试过的样本):

Facebook Graph Search如何运作？他举了一个例子:Friends from France who likes England

如何将上述实现为现实世界的信息检索问题？

由于我的回答不符合评论,所以想到重新构思问题并在Stack Overflow Q&A风格中回答它.

algorithm search information-retrieval graph-theory

2
推荐指数

1
解决办法

1810
查看次数

Java Generics和C++模板,如果生成的代码大小很重要,那么它们是首选的？

如果我们必须选择使用C++模板或Java Generics来实现解决方案并忽略剩余的语言问题(例如执行时间),那么如果生成的代码的大小很重要,那么哪个是首选？

我读到在Java Generics中,类型参数在编译后被抛出而没有存储在元数据中,这是否会导致更小的程序？

c++ java generics templates

0
推荐指数

1
解决办法

104
查看次数

标签统计

java ×3

information-retrieval ×2

machine-learning ×2

c++ ×1

classification ×1

collective-intelligence ×1

data-structures ×1

graph-theory ×1

io ×1

nlp ×1

persistence ×1

purely-functional ×1

semantic-analysis ×1

solr ×1

text-mining ×1

«
1
2
»