问题列表 - 第46549页

如何在Lucene中获得多字词的频率?

我正在使用Lucene来获取文档中的术语频率,即每个文档中某些术语的出现次数.我使用它是IndexReader.termDocs()为了这个目的,它适用于单字词,但由于所有的词都是分别存储在索引中,所以它不适用于多词术语.

例子(取自这个问题):我对术语"篮球"(甚至"篮球")的频率感兴趣,但是在标记后会有两个单词,我将能够得到术语的频率"篮子"和术语"球",但不是术语"篮球".

我知道我想要获得频率的所有多字词,我也不想存储原始文本 - 仅用于获取统计数据.所以,我的一种方法是在一个术语中连接单词.例如:"我打篮球昨天"变成了"我打篮球昨天"和"我最喜欢的作家是库尔特·冯内古特 "变成了"我最喜欢的作家是库尔特·冯内古特 ".这个工作:连接术语被视为任何其他单个单词,所以我可以轻松获得频率.但是这种方法很丑陋,更重要的是,这种方法很慢.所以我来到另一个.

我的第二个方法是编写特殊的记号过滤器,这将捕捉标记,并检查它们是否需要更换条件的一部分(类似SynonymFilterLucene的行动).在我们的例子中,当过滤器将看到单词"basket"时,它将再读取一个标记,如果它是"ball",过滤器将放置一个术语("篮球")而不是两个("篮子"和"球")输出令牌流.与之前的方法相比,此方法的优点在于,它搜索完整单词之间的匹配,并且不扫描子串的全文.事实上,大多数令牌将具有不同的长度,因此将被丢弃,甚至不检查其中任何字母的对应关系.但是这样的过滤器不易编写,而且,我不确定它是否足够快以满足我的需求.

我能想到的第三种方法是在同一文档中使用两个单词的位置.但很可能它会涉及TermDocs在获得频率时间期间的迭代,这比索引时间要多得多.

所以,最后,我的问题是:有没有办法在Lucene中有效地索引并获得多字词的频率?

java lucene algorithm

5
推荐指数
1
解决办法
2342
查看次数

为什么要对浮点数进行标准化 &...为什么 alpha 在 CSS rgba() 中是一个 0 到 1 的浮点数

这里是切中要害的问题。对不起。

我试图从数学角度理解“标准化”。

有毒库中,我们可以标准化浮点数。为什么人们想要规范化浮点数...在 3D 中,我知道 3 维平面的法线可以放弃。第一个想法:这与表现有关。但后来我发现这个问题解释了游戏 UI 如何使用它。这……我有点明白了。

公平地说,我们可以标准化存在最大值和最小值的浮点数吗?我能想到的两种场景:

  1. CSS 颜色 RGBA:RGB 范围为 0 到 255,但理论上可以更高。而A是从0.0到1.0。这是标准化的,因为它可以是完全透明的或不透明的,因此它是正常的,因为有一个确定的 0 或 1?

  2. 录制音乐(或查看波形)时,可以对其进行剪辑。这是因为有一个最大值和一个最小值,所以大于 1 的标准化值会被剪掉吗?我想,在这种情况下,标准化是为了方便。

那么,为什么要标准化浮动呢?是性能吗?可读性?还有什么(视觉参考==荣誉)?一直到 11 的 Spinal Tap Amp 与此有什么关系吗?

math

2
推荐指数
1
解决办法
2147
查看次数

在高范围位置提高DirectX的精度?

我正在使用带有随机创建世界的directx 9在c ++中创建一个小游戏,并且当玩家远离3d起源(0,0,0)时出现问题3d渲染变得非常不精确,导致视觉问题.我认为这是因为发送到着色器的值是浮点数,并且浮点数在增加时变得不那么精确.我虽然想要一个解决方案来移动所有模型而不是移动相机,但它更多的计算,我担心可能的性能下降.

有没有办法解决这个问题?

谢谢

c++ algorithm directx shader

5
推荐指数
0
解决办法
864
查看次数

从Excel 2007查询SQL并返回多个值

我正在尝试获取少量数据,Excel中的大约200个字段以及来自SQL的retreive数据以及每个项目的where子句中的该字段.

TABLE:

ID  Name    Phone
1   Test1   1234
2   Test2   1235
3   Test3   1236


Excel:
Date   ID
2/1/11 1
2/1/11 2
2/1/11 3
Run Code Online (Sandbox Code Playgroud)

我希望能够在excel中检索(希望无需编写任何额外的代码本身 - 可能只是一个简单的Excel ODBC或带有查询的SQL连接.所以我的数据最终将在Excel文档中结束:

Excel:
Date   ID  Name    Phone 
2/1/11 1   Test1   1234
2/1/11 2   Test2   1235
2/1/11 3   Test3   1236
Run Code Online (Sandbox Code Playgroud)

我不确定我是否能够清楚地解释自己......

我正在使用Excel 2007,我也有2010年在某处.SQL是SQL Server 2000.

谢谢!

sql excel-2007 database-connectivity

2
推荐指数
1
解决办法
2290
查看次数

IFileOperation在哪里实施(我该如何验证)?

我试图找出IFileOperation在Windows 7中实现的位置.据我所知,从MSDN页面它是在shell32.dll中.

因此,我使用DLL导出查看器(来自NirSoft)检查了shell32.dll中的所有COM对象,并且IFileOperation不是其中之一.

我在注册表中搜索了CLSID_FileOperation{3ad05575-8857-4850-9277-11b85bdb8e09},我发现(据我所知)它是在shell32.dll中.

但是如果我找不到使用DLL导出的COM导出怎么可能呢?

c++ com winapi windows-7

1
推荐指数
1
解决办法
949
查看次数

数据绑定另一个数据绑定文本中的文本

一旦div数据绑定替换<span>为其数据绑定,以下似乎不适用于knockoutjs :

<script..>
    <div data-bind="text: name">
        <span data-bind="text: index"></span>
    </div>
</script>
Run Code Online (Sandbox Code Playgroud)

结果是:

<div>My data-bind text</div>
Run Code Online (Sandbox Code Playgroud)

可能有我想要的这种嵌套行为吗?我不想把跨度作为兄弟.

data-binding knockout.js

0
推荐指数
1
解决办法
4404
查看次数

如何在pymongo中使用"group"来分组相似的行?

我是mongodb/pymongo的新手.我已成功将我的数据导入mongo,并希望使用group函数将相似的行组合在一起.例如,如果我的数据集如下所示:

data = [{uid: 1 , event: 'a' , time: 1} , 
        {uid: 1 , event: 'b' , time: 2} ,
        {uid: 2 , event: 'c' , time: 2} ,
        {uid: 3 , event: 'd' , time: 4}
       ]
Run Code Online (Sandbox Code Playgroud)

如何根据uid字段使用组函数对上述行进行分组,以使输出如下?

 { {uid: 1} : [{uid: 1 , event: 'a' , time: 1} , {uid: 1 , event: 'b' , time: 2} ],
   {uid: 2} : [{uid: 2 , event: 'c' , time: 2} ],
   {uid: 3} : [{uid: 3 , …
Run Code Online (Sandbox Code Playgroud)

python mongodb pymongo

9
推荐指数
1
解决办法
5418
查看次数

是否使用javascript链接<div>?

我想链接整个<div>,但CSS2不支持将div添加到div(或跨度).我的解决方案是使用onClick属性添加链接.这对现代浏览器来说是否可接受

示例代码:

<div class="frommage_box" id="about_frommage" onclick="location.href='#';">
            <div class="frommage_textbox" id="ft_1"><p>who is Hawk Design?</p></div>
Run Code Online (Sandbox Code Playgroud)

我的测试页面是http://www.designbyhawk.com/pixel.每日更新.

谢谢您的帮助.

html javascript css

3
推荐指数
1
解决办法
320
查看次数

在SQL Server 2008中回收未使用的空间

我有一个包含超过300,000条记录的表,大小约为1.5 GB

在那张桌子里,我有三个varchar(5000)字段,其余的是小字段.

在发布时update,将这三个字段设置为''.

收缩(数据库和文件)后,数据库使用与以前几乎相同的空间...

DBCC SHRINKDATABASE(N'DataBase' )
DBCC SHRINKFILE (N'DataBase' , 1757)
DBCC SHRINKFILE (N'DataBase_log' , 344)
Run Code Online (Sandbox Code Playgroud)

有关如何回收磁盘空间的任何想法?

administration sql-server-2008

6
推荐指数
1
解决办法
1万
查看次数

如何以最小的系统命中率处理您的APP的成就/徽章/奖励?

我喜欢我正在设计的网站的徽章和成就的概念.它们已经被证明可以提高消费/使用率,我认为这可能是我想要开发的应用程序的一大动力.

从高层次来看,我可以想到3种方法.

检查满足cron工作要求的成员:这对我来说似乎不是一个好主意,因为成员数量增加,cron工作需要更长时间才能完成.

每次动作完成后,可能满足徽章的要求,检查是否任何徽章应该颁给:这似乎是一个好办法做到这一点,但似乎我可能砸向服务器上的徽章连续检查已被授予或用户可能甚至不接近.

每次用户完成可以获得徽章的操作时,请检查他们是否已经拥有徽章,然后检查它们是否符合要求:这似乎也没问题,但如果我将用户存储为对象,则看起来像它可能会变得非常大,或者我可能最终会非常难以检查数据库以检查成就.

我有什么选择吗?我对一种或多种方法的担忧是否被夸大了?

编辑: 这是一个比我想象的要少得多的问题,还是在一个糟糕的时刻问我?我有什么不清楚的地方吗?

achievements badge

6
推荐指数
1
解决办法
548
查看次数