Justadistraction:没有空格的英语标记.村上羊人

cra*_*igs 7 python nlp linguistics

我想知道如果删除空格,会如何用英语(或其他西方语言)标记字符串?

这个问题的灵感来自于村上小说" 舞蹈之舞 "中的" 羊人"角色

在小说中,羊人被翻译为:

"像我们一样,我们只能看到它们.试试看,你们是什么意思,"羊人说道."但是我们不能独自一人.你们工作得很好."

因此,保留了一些标点符号,但不是全部.足以让人阅读,但有点武断.

为此构建解析器的策略是什么?字母,音节计数,条件语法,前瞻/后退正则表达式等的常见组合?

具体来说,python-wise,你将如何构建一个(宽容的)翻译流程?没有要求完整的答案,更多的是你的思维过程将如何解决问题.

我以轻浮的方式问这个问题,但我认为这个问题可能会得到一些有趣的(nlp/crypto/frequency/social)答案.谢谢!

Jos*_*shD 4

大约八个月前,我实际上为工作做了类似的事情。我只是在哈希表中使用了英语单词词典(查找时间为 O(1))。我会逐个字母匹配整个单词。它运作良好,但存在许多含糊之处。(asshit 可以是 ass hit 或 asshit)。要解决这些歧义,需要更复杂的语法分析。

  • 哦,哇。我曾经想过类似的事情(我的想法是一棵树,每个节点上有 26 个子节点),但我的老板说这是一个可笑的想法。我得停止听他说话了 >:( (2认同)