自然语言处理修复组合词

ric*_*ich 6 regex nlp

我有一些由另一个系统生成的文本.它将一些单词组合在一起,我认为是某种文字包装副产品.所以像"狗"这样简单的东西就会组合成"狗".

我检查了ascii和unicode字符串,看看那里没有一些看不见的字符,但没有.一个令人困惑的问题是,这是医学文本,要检查的语料库不是可用的.因此,真正的例子是"...排除SARS与肺炎的试验"最终成为"......肺炎".

有人建议找到并分离这些吗？

这就是我所做的。我结合了几个想法，并使用通用的引导方法提出了一个非常好的解决方案。我使用 Python 来完成这一切。

获取报告样本，对所有单词进行标记并创建频率表。
对于频率为 3 或以下的单词（频率为 4 或更多被认为足够常见且正确），我使用 PyEnchant 包（附魔库）对它们进行拼写检查
在步骤 2 中，根据“拼写错误”的单词构建了一本医学词典，这些词是临床的。
为所有报告创建频率表
对于频率低于 4 的单词，我使用 PyEnchant 和我的医学词典对每个单词进行拼写检查
取出每个拼写错误的单词，并以所有可能的方式将它们拆分。测试这些拆分是否能创建 2 个拼写正确的单词。保留任何成功的分割
对于每个可能的解决方案，使用最高权重的解决方案。

归档时间：	14 年，11 月前
查看次数：	403 次
最近记录：	14 年，11 月前

Python删除任何不是字母或数字的东西 25

nltk punkt的训练数据格式 16

REGEX是否因PHP而异 13

请参阅Regex中的组内组 9

Javascript RegExp匹配<a>标签之间的文本 8

在TypeScript中获取类方法的名称 8

是否可以将多个heredoc表达式与正则表达式匹配？ 8

验证电子邮件的RegEx有什么问题？ 7

与 BERT 进行字符串比较似乎忽略了句子中的“not” 3

文本分类 - 使用词干分析器降低结果？ 2

package.json中的波浪号(〜)和插入符号(^)有什么区别？ 3111

按字符串属性值对对象数组进行排序 2535

一次捕获多个异常？ 2015

如何在Git中检索当前提交的哈希值？ 1788

如何有效地计算JavaScript中对象的键/属性数？ 1452

从客户端检测到潜在危险的Request.Form值 1437

Memcached与Redis？ 1398

如何从GET参数中获取值？ 1255

从字典中删除元素 1243

如何获取Android应用程序的构建版本号？ 1198