小编Yuv*_*l F的帖子

查找顶点边(多边形)的最佳算法

我有一大堆顶点,其中一些是边,一些是冗余的(在形状内),我想删除它们.

我能想到的最简单的算法是,如果它们碰到其他人形成的形状,则逐个检查.但它应该是一个非常慢的算法.

我想过从边缘挑选一个(距离每个例子最远的一个)并计算从这个开始的最长路径...应该得到边缘路径,对吗?

有什么建议吗?

algorithm polygon vertices edges convex-hull

5
推荐指数
2
解决办法
8914
查看次数

像关系数据库一样使用Lucene

我只是想知道我们是否可以在Lucene中实现一些RDBMS功能。

示例:1)我有10,000个项目文档(pdf文件),必须对其内容进行索引以使它们可用于搜索。2)每个文档都与一个项目相关。项目可以包含项目名称,编号,开始日期,结束日期,位置,类型等详细信息。

我必须在pdf文件的内容中搜索给定的关键字,但是在显示结果时,我要显示第(2)点中提到的项目元数据。

我的想法是在索引时将一个名为projectId的字段与每个pdf文件相关联。一旦获得该信息,我们将再次触发搜索以获取项目元数据。

这样我们可以避免重复数据。同样,如果我们要更新项目元数据,我们最终将只在一个地方进行更新。否则,如果我们将此元数据与所有pdf doument索引一起存储,则最终将更新所有文档,这不是我想要的方式。

请指教。

lucene indexing search rdbms join

5
推荐指数
1
解决办法
5408
查看次数

Solr查询语法

我刚开始考虑使用Solr作为我的搜索网络服务.我不知道Solr是否支持这些查询类型:

  • 以..开始
  • 完全符合
  • 包含
  • 不包含
  • 范围中

谁能指导我如何在Solr中实现这些功能?

干杯,萨姆南

lucene syntax solr web-services

5
推荐指数
2
解决办法
2万
查看次数

我可以使用Lucene Connector Framework将Solr与Sharepoint集成

我可以使用Lucene Connector Framework将Solr与Sharepoint集成.如果是这样,我应该将Solr Index作为Sharepoint的底层数据库吗?这会产生成功的搜索结果吗?

lucene sharepoint solr connector

5
推荐指数
1
解决办法
5773
查看次数

Java API:下载和计算给定网页的tf-idf

我是IR技术的新手.

我正在寻找基于Java的API或工具来执行以下操作.

  1. 下载给定的URL集
  2. 提取令牌
  3. 删除停用词
  4. 执行词干
  5. 创建倒置索引
  6. 计算TF-IDF

请告诉我Lucene怎么能对我有所帮助.

关心Yuvi

java lucene solr tf-idf

5
推荐指数
1
解决办法
7324
查看次数

CORPUS资源

我正在设计一个自动文本摘要.该项目的主要模块之一需要TRAINING CORPUS.有人可以通过提供TRAINING CORPUS引用一些链接来帮助我下载它.谢谢你的期待

nlp corpus

4
推荐指数
1
解决办法
4500
查看次数

选择Solr / Lucene提交策略

我有120k db记录要提交到Solr索引中。

我的问题是:我应该在提交每10k条记录后提交,还是在提交所有12万条记录后提交一次?

这两种选择之间有什么区别吗?

lucene indexing solr commit

4
推荐指数
1
解决办法
2290
查看次数

使用ggplot2根据人口普查数据绘制地图

我有一个我希望使用ggplot2在旧金山地图上叠加的点列表.每个点都是经度,纬度对.我希望生成的地图位于经度/纬度坐标系中.我设法重现了Hadley Wickham 使用他的示例文件绘制多边形shapefile方向.我正在使用R 2.15.1 for Windows.

但是,我尝试使用从UScensus2010cdp包下载的cdp文件.这是我的代码片段:

require("rgdal") 
require("maptools")
require("ggplot2")
require("sp")
require("plyr")
gpclibPermit() # required for fortify method
require(UScensus2010)
require(UScensus2010cdp)
data(california.cdp10)
sf <- city(name = "san francisco", state="ca")
sf.points = fortify(sf)
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

Using name to define regions.
Error in unionSpatialPolygons(cp, invert(polys)) : input lengths differ
In addition: Warning message:
In split(as.numeric(row.names(attr)), addNA(attr[, region], TRUE)) :
   NAs introduced by coercion
Run Code Online (Sandbox Code Playgroud)

有人知道吗:

  1. 给fortify()的region参数有什么好处?
  2. 如果失败了,ggplot2可以绘制旧金山的未转换纬度/经度坐标的地图数据源?
  3. 或者,我在这里找到另一张旧金山地图,其数据已被翻译.你能告诉我如何将这些数据翻译成原始的lat/long或者为我的一组点进行反向翻译吗?

r geospatial ggplot2 census

4
推荐指数
1
解决办法
1707
查看次数

如何更改交互式代理中的时区?

我正在使用 Interactive Brokers API,TWS 版本 974,以及 IBC 和 ib_insync 库。我想更改其中之一的时区,以便根据 America/New_York 时区获取市场数据和历史记录。我已经将机器的时区更改为所需的时区,但这对 IB 结果没有影响。我在哪里可以进行更改以获得正确的时区?

java timezone tws interactive-brokers

4
推荐指数
1
解决办法
6002
查看次数

使用Solr中的地理位置排名

为Solr/Lucene实现自定义排名算法的正确方法是什么?

我读到Zvents为与特定地理区域中的事件相对应的文档实施距离加权排名系统(http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Zvents).

我想做类似的事情:我在不同的城市中对广告进行索引,并希望在给定特定位置的情况下提高最近广告的相关性.

lucene solr spatial ranking

3
推荐指数
1
解决办法
1204
查看次数