问题列表 - 第13407页

如何通过在python中折叠来实现Unicode字符串匹配

我有一个实现增量搜索的应用程序.我有一个匹配的unicode字符串目录,并将它们与给定的"key"字符串匹配; 如果目录字符串按顺序包含键中的所有字符,则它是"命中",如果目录字符串中的关键字符集群,则排序更好.

无论如何,这工作正常,并完全匹配的Unicode,让"OST"将匹配" OST blocket"或"R OST "或"R ö d ST恩".

无论如何,现在我想实现折叠,因为在某些情况下,区分诸如"á"或"é"的目录字符和关键字符"a"或"e"是没有用的.

例如:"Ole"应匹配"Olé"

我如何在Python中最好地实现这个unicode-folding matcher?效率非常重要,因为我必须将数千个目录字符串与短的给定键匹配.

它不必将其变成ascii; 实际上,算法的输出字符串可以是unicode.留下一个角色比剥离它更好.


我不知道接受哪个答案,因为我使用了两者兼而有之.采用NKFD分解并删除组合标记几乎可以完成,我只添加了一些自定义音译.这是现在看起来的模块:(警告,包含内联的unicode字符,因为编辑这种方式更好.)

# -*- encoding: UTF-8 -*-

import unicodedata
from unicodedata import normalize, category

def _folditems():
    _folding_table = {
        # general non-decomposing characters
        # FIXME: This is not complete
        u"?" : u"l",
        u"œ" : u"oe",
        u"ð" : u"d",
        u"þ" : u"th",
        u"ß" : u"ss",
        # germano-scandinavic canonical transliterations
        u"ü" : u"ue",
        u"å" : u"aa",
        u"ä" : u"ae",
        u"æ" : u"ae",
        u"ö" : u"oe",
        u"ø" …
Run Code Online (Sandbox Code Playgroud)

python unicode

10
推荐指数
1
解决办法
4497
查看次数

URL验证的正则表达式(在JavaScript中)

是否有人使用正则表达式来验证网址(不是在文本段落中找到它们)?JavaScript代码段将是首选.

javascript regex validation url

22
推荐指数
5
解决办法
8万
查看次数

解析装配合格的名称?

我想解析.NET 3.5中的程序集限定名称.特别是,组件本身不可用,它只是名称.我可以想到很多方法可以手动完成,但我想我可能会遗漏一些在系统库中执行此操作的功能.有什么建议吗?

.net reflection parsing assemblies

28
推荐指数
3
解决办法
9571
查看次数

PyRo和RPyC python库的优点和缺点是什么?

我正在寻找一个Python的远程过程调用引擎,我发现PyRo(Python远程对象)RPyC(远程Python调用)都是我正在寻找的东西.

但是,我很想知道他们如何相互比较,他们的利弊是什么?

python distributed pyro rpyc

14
推荐指数
2
解决办法
1万
查看次数

C(非C++)的异常库

我正在为C推出自己的异常库,并希望检查好的例子.

到目前为止,我一直在关注David Hanson:http: //drhanson.net/work/

但我知道过去我见过其他的.你能给我一些额外的指示吗?

谢谢,

那么setjmp

c exception raise c99 throw

6
推荐指数
1
解决办法
1107
查看次数

FileSystemObject - 读取Unicode文件

经典ASP,VBScript上下文.

包括这个Microsoft在内的很多文章都说你不能使用FileSystemObject来读取Unicode文件.

我曾经遇到过这个问题,所以转而使用ADODB.Stream ,而不是使用这里的ReadText示例,而不是使用FileSystemObject.OpenTextFile(它接受一个指示是否以unicode打开文件的最终参数,但实际上并不是工作).

但是,ADODB.Stream在尝试读取UNC文件共享上的文件(与权限相关的问题)时会导致痛苦.所以,调查这个,我偶然发现了以下方法:a)使用unicode文件,b)跨UNC文件共享:

dim fso, file, stream
set fso = Server.CreateObject("Scripting.FileSystemObject")
set file = fso.GetFile("\\SomeServer\Somefile.txt")
set stream = file.OpenAsTextStream(ForReading,-1) '-1 = unicode
Run Code Online (Sandbox Code Playgroud)

这是使用FSO读取unicode文件而没有任何明显的问题,所以我很困惑所有的引用,包括MS,说你不能使用FSO来读取unicode文件.

有没有其他人使用这种方法来读取unicode文件?我有什么隐藏的陷阱,或者你真的可以使用FSO读取unicode文件吗?

vbscript scripting asp-classic

11
推荐指数
2
解决办法
3万
查看次数

ASP.NET Web应用程序中异常处理的最佳实践

我们正在使用ASP.NET Web应用程序(使用C#语言)处理异常处理.您能告诉我异常处理的最佳实践吗?

c# asp.net exception-handling

0
推荐指数
1
解决办法
5290
查看次数

使用Eclipse为JAR文件自动创建清单文件

如何Manifest为已创建的一组JAR文件创建文件.

我用Eclipse创建了我的JAR文件.

有没有更好的方法来创建一个具有Manifest?的JAR文件?

java eclipse jar manifest

13
推荐指数
3
解决办法
7万
查看次数

在Hibernate中使用查询映射实体

考虑表

sales (id, seller_id, amount, date)
Run Code Online (Sandbox Code Playgroud)

这是一个sales使用查询生成的视图SELECT seller_id, SUM(amount) FROM sales GROUP BY seller_id

total_sales (seller_id, amount)
Run Code Online (Sandbox Code Playgroud)

我想创建一个实体用于总销售但没有sql方面的视图.

该实体将从查询构造.我找到的最接近的是这个,但我无法使其发挥作用.

即使我定义了加载器,hibernate也会查找实体的表,如果找不到它就会出错.如果我创建表,它不会从我定义的命名查询中加载实体,Hibernate会自己生成查询.

有没有办法让@Loader工作,还是有另一种方法可以将查询映射到实体?

hibernate hql hibernate-mapping

6
推荐指数
1
解决办法
2万
查看次数

java的自然语言日期和时间解析器

我正在研究一个自然语言解析器,它用英语检查一个句子,并提取一些信息,如姓名,日期等.

例如:" 让我们下周二下午5点在海滩见面. "

所以输出将是这样的:" 让我们在海滩的1700小时在15/09/2009见面 "

基本上,我想知道的是,JAVA是否有任何框架或库可用于执行这些操作,例如从句子中解析日期并提供具有某种指定格式的输出.

此致,Pranav


谢谢你的回复.我查看了几个NLP,如LingPipe,OpenPL,Stanford NLP.我想问他们为java的日期解析做了什么.

java datetime parsing nlp

15
推荐指数
2
解决办法
7902
查看次数