小编Mul*_*one的帖子

用Lucene扼杀英语单词

我正在Java应用程序中处理一些英文文本,我需要阻止它们.例如,从文字"amenities/amenity"我需要得到"amenit".

该功能如下:

String stemTerm(String term){
   ...
}
Run Code Online (Sandbox Code Playgroud)

我找到了Lucene分析仪,但它看起来太复杂了我需要的东西. http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

有没有办法用它来阻止单词而无需构建分析器?我不了解所有分析仪业务......

编辑:我实际上需要一个词干+词形还原.Lucene可以这样做吗?

java lucene stemming porter-stemmer

28
推荐指数
4
解决办法
6万
查看次数

斯皮尔曼相关与关系

我在小型配对排名上计算Spearman的rho.斯皮尔曼以不妥善处理领带而闻名.例如,取2组8个排名,即使6个是两组中的一组中的关系,相关性也会非常高:

> cor.test(c(1,2,3,4,5,6,7,8), c(0,0,0,0,0,0,7,8), method="spearman")

    Spearman's rank correlation rho

S = 19.8439, p-value = 0.0274

sample estimates:
      rho 
0.7637626 

Warning message:
 Cannot compute exact p-values with ties
Run Code Online (Sandbox Code Playgroud)

并且p值<.05,这对于这些数据来说似乎具有非常高的统计意义.在R中是否有一个关系纠正版的Spearman?迄今为止用很多关系来计算它的最佳公式是什么?

r correlation

25
推荐指数
5
解决办法
5万
查看次数

R中的快速部分字符串匹配

给定一个字符串向量texts和一个模式向量patterns,我想找到每个文本的任何匹配模式.

对于小型数据集,可以在R中轻松完成grepl:

patterns = c("some","pattern","a","horse")
texts = c("this is a text with some pattern", "this is another text with a pattern")

# for each x in patterns
lapply( patterns, function(x){
  # match all texts against pattern x
  res = grepl( x, texts, fixed=TRUE )
  print(res)
  # do something with the matches
  # ...
})
Run Code Online (Sandbox Code Playgroud)

此解决方案是正确的,但它不会扩展.即使使用适度更大的数据集(约500个文本和模式),这段代码也非常慢,在现代机器上每秒仅解决大约100个案例 - 考虑到这是一个粗略的字符串部分匹配,没有正则表达式(设置为fixed=TRUE),这是荒谬的.即使进行lapply并行也无法解决问题.有没有办法有效地重写这段代码?

谢谢,Mulone

string performance r string-matching

17
推荐指数
2
解决办法
4342
查看次数

如何在Grails服务中将接口与实现分开?

我想知道是否有可能在Grails上创建一个服务接口,我找不到合适的方法.这种解释并不令人满意,因为它似乎混合了Java和Groovy:

http://www.grails.org/doc/latest/guide/8.%20The%20Service%20Layer.html

在我看来,这是一个糟糕的框架设计缺陷,因为接口机制是Java(和大多数OO语言)的最佳功能之一.

有什么想澄清这个问题吗?

谢谢!Mulone

service grails groovy interface

15
推荐指数
2
解决办法
6570
查看次数

如何将距离从度数转换为米?

我正在使用OpenLayers和一个普通的墨卡托地图,我试图通过在latlong中找到一个点网格来对边界框进行采样.bbox以latlon表示,例如

48.1388,-15.3616,55.2057,-3.9359
Run Code Online (Sandbox Code Playgroud)

我可以用度数定义距离(例如x:2.5,y:2.4)并从那里计算出点数.但我想用(例如50000)来表达这个距离,以便将它与用户心态联系起来(人们理解米,而不是度数).我怎样才能转换这个距离?我知道如何重新投射一个点,但不是距离.

谢谢你的任何提示!Mulone

transform openlayers haversine map-projections proj4js

14
推荐指数
2
解决办法
5万
查看次数

地理本体准备使用?

我正在寻找一个包含地理知识的本体论.特别是我想要这些类型的信息:

  • 政治国家/地区/城市/城市地区
  • 地理区域(例如大陆,山脉,湖泊等)

例如,从节点"纽约"开始,我希望能够找到像纽约州,美国等父母,以及曼哈顿,布朗克斯等儿童.我找不到任何开源/免费使用.我知道很多研究人员从维基百科中提取这些信息,但我找不到任何现成的软件包.我还检查了OpenStreetMap,它对数据量很大,但似乎没有包含适当的地理本体.

即使是网络服务也会很好!

任何提示?Mulone

gis open-source geography ontology

12
推荐指数
1
解决办法
3193
查看次数

按R中的平均值(而非中位数)对boxplot排序

我有一个简单的boxplot,显示因子TYPE得分的分布:

myDataFrame = data.frame( TYPE=c("a","a","b","b","c","c"), SCORE=c(1,1,2,3,2,1) )
boxplot( SCORE~TYPE, data=myDataFrame )
Run Code Online (Sandbox Code Playgroud)

各种类型按数据框中的顺序显示.我想用每个TYPE中SCORE 的平均值对boxplot进行排序(在上面的例子中,顺序应该是a,c,b).

任何提示?

sorting r mean boxplot

11
推荐指数
1
解决办法
9525
查看次数

模块化大型Grails应用程序的最佳实践?

我正在研究的Grails应用程序变得非常大,将它重构为几个模块会很好,这样我们就不必每次都重新部署整个程序.

在几个模块中拆分Grails应用程序的最佳做法是什么?特别是我想创建一个域类+相关服务的包,并在应用程序中将其用作模块.这可能吗?是否可以使用插件

grails plugins design-patterns module

8
推荐指数
1
解决办法
3541
查看次数

Java中不同Map投影之间的转换

在我的GIS应用程序中,数据有时存储在"Google Mercator"(以米为单位)中,有时存储在WGS84 LatLon中.我想要一个可靠的库来轻松地以"科学"的方式转换这些数据,而不是手动搞乱它,冒着很大的错误.

我遇到过Proj4,显然能够做到这一点:http://trac.osgeo.org/proj

但我找不到类似的Java库(或Groovy).鉴于这些预测在在线应用中越来越普遍,这样的项目将是非常有益的.一个小罐子会很棒:-)

有一个Java端口,但没有任何文件可供下载:http://www.jhlabs.com/java/maps/proj/

基本上我需要做这种转换:http://proj4js.org

有关如何在Java中执行此操作的任何想法?

谢谢,Mulone

java gis proj map-projections

7
推荐指数
1
解决办法
4812
查看次数

Java中的Wordnet相似性:JAWS,JWNL还是Java WN ::相似性?

我需要在基于java的应用程序中使用Wordnet.我想要:

  • 搜索同义词

  • 找到synsets之间的相似性/相关性

我的应用程序使用RDF图表,我知道有Wordnet的SPARQL端点,但我想最好有一个数据集的本地副本,因为它不是太大.

我找到了以下罐子:

你会为我的应用推荐什么?

是否可以通过一些绑定从Java应用程序中使用Perl库?

谢谢!Mulone

java similarity jaws-wordnet wordnet

7
推荐指数
1
解决办法
2万
查看次数