我正在Java应用程序中处理一些英文文本,我需要阻止它们.例如,从文字"amenities/amenity"我需要得到"amenit".
该功能如下:
String stemTerm(String term){
...
}
Run Code Online (Sandbox Code Playgroud)
我找到了Lucene分析仪,但它看起来太复杂了我需要的东西. http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
有没有办法用它来阻止单词而无需构建分析器?我不了解所有分析仪业务......
编辑:我实际上需要一个词干+词形还原.Lucene可以这样做吗?
我在小型配对排名上计算Spearman的rho.斯皮尔曼以不妥善处理领带而闻名.例如,取2组8个排名,即使6个是两组中的一组中的关系,相关性也会非常高:
> cor.test(c(1,2,3,4,5,6,7,8), c(0,0,0,0,0,0,7,8), method="spearman")
Spearman's rank correlation rho
S = 19.8439, p-value = 0.0274
sample estimates:
rho
0.7637626
Warning message:
Cannot compute exact p-values with ties
Run Code Online (Sandbox Code Playgroud)
并且p值<.05,这对于这些数据来说似乎具有非常高的统计意义.在R中是否有一个关系纠正版的Spearman?迄今为止用很多关系来计算它的最佳公式是什么?
给定一个字符串向量texts和一个模式向量patterns,我想找到每个文本的任何匹配模式.
对于小型数据集,可以在R中轻松完成grepl:
patterns = c("some","pattern","a","horse")
texts = c("this is a text with some pattern", "this is another text with a pattern")
# for each x in patterns
lapply( patterns, function(x){
# match all texts against pattern x
res = grepl( x, texts, fixed=TRUE )
print(res)
# do something with the matches
# ...
})
Run Code Online (Sandbox Code Playgroud)
此解决方案是正确的,但它不会扩展.即使使用适度更大的数据集(约500个文本和模式),这段代码也非常慢,在现代机器上每秒仅解决大约100个案例 - 考虑到这是一个粗略的字符串部分匹配,没有正则表达式(设置为fixed=TRUE),这是荒谬的.即使进行lapply并行也无法解决问题.有没有办法有效地重写这段代码?
谢谢,Mulone
我想知道是否有可能在Grails上创建一个服务接口,我找不到合适的方法.这种解释并不令人满意,因为它似乎混合了Java和Groovy:
http://www.grails.org/doc/latest/guide/8.%20The%20Service%20Layer.html
在我看来,这是一个糟糕的框架设计缺陷,因为接口机制是Java(和大多数OO语言)的最佳功能之一.
有什么想澄清这个问题吗?
谢谢!Mulone
我正在使用OpenLayers和一个普通的墨卡托地图,我试图通过在latlong中找到一个点网格来对边界框进行采样.bbox以latlon表示,例如
48.1388,-15.3616,55.2057,-3.9359
Run Code Online (Sandbox Code Playgroud)
我可以用度数定义距离(例如x:2.5,y:2.4)并从那里计算出点数.但我想用米(例如50000)来表达这个距离,以便将它与用户心态联系起来(人们理解米,而不是度数).我怎样才能转换这个距离?我知道如何重新投射一个点,但不是距离.
谢谢你的任何提示!Mulone
我正在寻找一个包含地理知识的本体论.特别是我想要这些类型的信息:
例如,从节点"纽约"开始,我希望能够找到像纽约州,美国等父母,以及曼哈顿,布朗克斯等儿童.我找不到任何开源/免费使用.我知道很多研究人员从维基百科中提取这些信息,但我找不到任何现成的软件包.我还检查了OpenStreetMap,它对数据量很大,但似乎没有包含适当的地理本体.
即使是网络服务也会很好!
任何提示?Mulone
我有一个简单的boxplot,显示因子TYPE得分的分布:
myDataFrame = data.frame( TYPE=c("a","a","b","b","c","c"), SCORE=c(1,1,2,3,2,1) )
boxplot( SCORE~TYPE, data=myDataFrame )
Run Code Online (Sandbox Code Playgroud)
各种类型按数据框中的顺序显示.我想用每个TYPE中SCORE 的平均值对boxplot进行排序(在上面的例子中,顺序应该是a,c,b).
任何提示?
我正在研究的Grails应用程序变得非常大,将它重构为几个模块会很好,这样我们就不必每次都重新部署整个程序.
在几个模块中拆分Grails应用程序的最佳做法是什么?特别是我想创建一个域类+相关服务的包,并在应用程序中将其用作模块.这可能吗?是否可以使用插件?
在我的GIS应用程序中,数据有时存储在"Google Mercator"(以米为单位)中,有时存储在WGS84 LatLon中.我想要一个可靠的库来轻松地以"科学"的方式转换这些数据,而不是手动搞乱它,冒着很大的错误.
我遇到过Proj4,显然能够做到这一点:http://trac.osgeo.org/proj
但我找不到类似的Java库(或Groovy).鉴于这些预测在在线应用中越来越普遍,这样的项目将是非常有益的.一个小罐子会很棒:-)
有一个Java端口,但没有任何文件可供下载:http://www.jhlabs.com/java/maps/proj/
基本上我需要做这种转换:http://proj4js.org
有关如何在Java中执行此操作的任何想法?
谢谢,Mulone
我需要在基于java的应用程序中使用Wordnet.我想要:
搜索同义词
找到synsets之间的相似性/相关性
我的应用程序使用RDF图表,我知道有Wordnet的SPARQL端点,但我想最好有一个数据集的本地副本,因为它不是太大.
我找到了以下罐子:
你会为我的应用推荐什么?
是否可以通过一些绑定从Java应用程序中使用Perl库?
谢谢!Mulone
java ×3
r ×3
gis ×2
grails ×2
boxplot ×1
correlation ×1
geography ×1
groovy ×1
haversine ×1
interface ×1
jaws-wordnet ×1
lucene ×1
mean ×1
module ×1
ontology ×1
open-source ×1
openlayers ×1
performance ×1
plugins ×1
proj ×1
proj4js ×1
service ×1
similarity ×1
sorting ×1
stemming ×1
string ×1
transform ×1
wordnet ×1