相关疑难解决方法(0)

如何拆分多个连接的单词?

我有一个1000个左右的数组,下面是一些例子:

wickedweather
liquidweather
driveourtrucks
gocompact
slimprojector
Run Code Online (Sandbox Code Playgroud)

我希望能够将这些分成各自的词,如:

wicked weather
liquid weather
drive our trucks
go compact
slim projector
Run Code Online (Sandbox Code Playgroud)

我希望有一个正则表达式,我可以做到这一点.但是,既然没有边界可以停下来,也没有任何我可以关键的大写,我想,有些类型的字典引用可能是必要的吗?

我想它可以手工完成,但为什么 - 什么时候可以用代码完成!=)但这让我很难过.有任何想法吗?

string nlp

46
推荐指数
4
解决办法
2万
查看次数

从文本中检测最可能的单词而不使用空格/组合单词

是否有一个好的库可以从组合字符串中检测和拆分单词?

例:

"cdimage" -> ["cd", "image"]
"filesaveas" -> ["file", "save", "as"]
Run Code Online (Sandbox Code Playgroud)

python split cpu-word

12
推荐指数
2
解决办法
3529
查看次数

有没有一种简单的方法可以在python中从一个不平等的句子生成一个可能的单词列表?

我有一些文字:

 s="Imageclassificationmethodscan beroughlydividedinto two broad families of approaches:"
Run Code Online (Sandbox Code Playgroud)

我想把它解析成单词.我很快调查了附魔和nltk,但没有看到任何看起来立即有用的东西.如果我有时间投入这个,我会考虑编写一个动态程序,附魔能够检查一个单词是否是英语.我原以为在网上有什么可以做的,我错了吗?

python nlp

10
推荐指数
1
解决办法
473
查看次数

检查字符串是否包含英语句子

到目前为止,我决定拿一本字典并遍历整个事情.每当我看到换行符时,我都会创建一个包含该换行符的字符串到下一个换行符,然后我执行string.find()以查看该英语单词是否在某处.这需要非常长的时间,每个单词大约需要1/2-1/4秒来验证.

它工作得很好,但我需要每秒检查数千个单词.我可以运行几个窗口,这不影响速度(多线程),但它仍然只检查10秒.(我需要数千)

我正在编写代码来预编译一个包含英语中每个单词的大数组,这应该可以加快它的速度,但仍然没有达到我想要的速度.有是一个更好的方式来做到这一点.

我正在检查的字符串将如下所示:

"hithisisastringthatmustbechecked"
Run Code Online (Sandbox Code Playgroud)

但大多数都包含完整的垃圾,只是随机字母.

我不能检查不可能的字母组合,因为'tm'之间的'tm'会抛出那个字符串.

c++ string linguistics

7
推荐指数
2
解决办法
2407
查看次数

寻找一种更好的遗传算法评估方法

我目前正试图用一种不常见的方法,一种遗传算法来解决reddit上的艰难挑战#151.

总之,一个分隔条件字符串之后consonantsvowels和移除spaces我需要把它放在一起不知道什么字符是第一位的.

hello world被分隔到hllwrldeoo和需要被重新组装起来.例如hlelworlod,一种解决方案是,但这没有多大意义.采用所有可能解决方案的详尽方法可行,但对于较长的问题集则不可行.

我已经拥有的

  • 具有英语单词频率的数据库
  • 一种算法,cost使用Zipf定律构造相对数据库,并且可以从没有空格的句子中始终分离单词(借用此问题/答案)
  • 将辅音和元音放入堆栈并随机从任一个中取出一个字符并将其编码为一个字符串的方法,该字符串由12有效地编码构造gene.这个gene例子的正确性是1211212111
  • 一种改变这种字符串的方法,随机交换字符

我尝试了什么

使用该infer_spaces()方法生成500个随机序列,并使用所有单词的成本评估适应度,取最佳值25%并从中修改4个新值,适用于小字符串,但经常落入局部最小值,尤其是对于较长序列.Hello World已经在第一代中发现(已经thisisnotworkingverygood正确分离并且具有成本)已经在第二代中41.223收敛到th iss n ti wo or king v rye good(270成本).

我需要的

显然,使用计算出的成本作为评估方法仅适用于语法正确的句子的分离,而不适用于此遗传算法.你有更好的想法吗?或者是解决方案的另一部分,例如问题的表示gene

python algorithm genetic-algorithm

7
推荐指数
1
解决办法
446
查看次数

Google如何识别没有空格的2个单词?

我想了解谷歌如何处理2个单词之间的空格.例如,有2个单词 - word1和word2.我在搜索框'word1word2'中写道,它表示你的意思是'word1 word2'或者只是理解为'word1 word2'.他们使用什么数据结构和算法的任何信息?我在这个答案中看到如何将没有空格的文本拆分成单词列表?,建议使用trie数据结构.

algorithm search nlp

6
推荐指数
2
解决办法
557
查看次数

如何有效地从连续字符串中提取文字单词?

可能重复:
如何将没有空格的文本拆分成单词列表?

人们的评论中有大量的文本信息,这些信息是从html中解析出来的,但它们中没有分隔字符.例如:thumbgreenappleactiveassignmentweeklymetaphor.显然,字符串中有"拇指","绿色","苹果"等.我还有一个大词典来查询这个词是否合理.那么,提取这些单词的最快方法是什么?

python algorithm text-extraction extract

2
推荐指数
1
解决办法
1352
查看次数