我有一个1000个左右的数组,下面是一些例子:
wickedweather
liquidweather
driveourtrucks
gocompact
slimprojector
Run Code Online (Sandbox Code Playgroud)
我希望能够将这些分成各自的词,如:
wicked weather
liquid weather
drive our trucks
go compact
slim projector
Run Code Online (Sandbox Code Playgroud)
我希望有一个正则表达式,我可以做到这一点.但是,既然没有边界可以停下来,也没有任何我可以关键的大写,我想,有些类型的字典引用可能是必要的吗?
我想它可以手工完成,但为什么 - 什么时候可以用代码完成!=)但这让我很难过.有任何想法吗?
是否有一个好的库可以从组合字符串中检测和拆分单词?
例:
"cdimage" -> ["cd", "image"]
"filesaveas" -> ["file", "save", "as"]
Run Code Online (Sandbox Code Playgroud) 我有一些文字:
s="Imageclassificationmethodscan beroughlydividedinto two broad families of approaches:"
Run Code Online (Sandbox Code Playgroud)
我想把它解析成单词.我很快调查了附魔和nltk,但没有看到任何看起来立即有用的东西.如果我有时间投入这个,我会考虑编写一个动态程序,附魔能够检查一个单词是否是英语.我原以为在网上有什么可以做的,我错了吗?
到目前为止,我决定拿一本字典并遍历整个事情.每当我看到换行符时,我都会创建一个包含该换行符的字符串到下一个换行符,然后我执行string.find()以查看该英语单词是否在某处.这需要非常长的时间,每个单词大约需要1/2-1/4秒来验证.
它工作得很好,但我需要每秒检查数千个单词.我可以运行几个窗口,这不影响速度(多线程),但它仍然只检查10秒.(我需要数千)
我正在编写代码来预编译一个包含英语中每个单词的大数组,这应该可以加快它的速度,但仍然没有达到我想要的速度.有有是一个更好的方式来做到这一点.
我正在检查的字符串将如下所示:
"hithisisastringthatmustbechecked"
Run Code Online (Sandbox Code Playgroud)
但大多数都包含完整的垃圾,只是随机字母.
我不能检查不可能的字母组合,因为'tm'之间的'tm'会抛出那个字符串.
我目前正试图用一种不常见的方法,一种遗传算法来解决reddit上的艰难挑战#151.
总之,一个分隔条件字符串之后consonants和vowels和移除spaces我需要把它放在一起不知道什么字符是第一位的.
hello world被分隔到hllwrld与eoo和需要被重新组装起来.例如hlelworlod,一种解决方案是,但这没有多大意义.采用所有可能解决方案的详尽方法可行,但对于较长的问题集则不可行.
cost使用Zipf定律构造相对数据库,并且可以从没有空格的句子中始终分离单词(借用此问题/答案)1和2有效地编码构造gene.这个gene例子的正确性是1211212111使用该infer_spaces()方法生成500个随机序列,并使用所有单词的成本评估适应度,取最佳值25%并从中修改4个新值,适用于小字符串,但经常落入局部最小值,尤其是对于较长序列.Hello World已经在第一代中发现(已经thisisnotworkingverygood正确分离并且具有成本)已经在第二代中41.223收敛到th iss n ti wo or king v rye good(270成本).
显然,使用计算出的成本作为评估方法仅适用于语法正确的句子的分离,而不适用于此遗传算法.你有更好的想法吗?或者是解决方案的另一部分,例如问题的表示gene?
我想了解谷歌如何处理2个单词之间的空格.例如,有2个单词 - word1和word2.我在搜索框'word1word2'中写道,它表示你的意思是'word1 word2'或者只是理解为'word1 word2'.他们使用什么数据结构和算法的任何信息?我在这个答案中看到如何将没有空格的文本拆分成单词列表?,建议使用trie数据结构.
可能重复:
如何将没有空格的文本拆分成单词列表?
人们的评论中有大量的文本信息,这些信息是从html中解析出来的,但它们中没有分隔字符.例如:thumbgreenappleactiveassignmentweeklymetaphor.显然,字符串中有"拇指","绿色","苹果"等.我还有一个大词典来查询这个词是否合理.那么,提取这些单词的最快方法是什么?