确定英语单词的难度

Tec*_*dle 22 algorithm words

我正在做一个基于单词的游戏.我的单词数据库包含大约10,000个英语单词(按字母顺序排序).我计划在游戏中有5个难度级别.相对而言,1级显示最简单的单词,5级表示最难的单词.

我需要将10,000个长单词列表分为5个级别,从最简单的单词开始到难点单词.我正在寻找一个为我做这个的程序.

有人能告诉我是否有算法或方法来定量测量英语单词的难度?

我有一些想法围绕使用" 单词长度 "和" 单词频率 "作为因素,并提出一个公式或某事来实现这一点.

Mar*_*llo 11

获取大量文本(例如来自古腾堡档案馆),进行直接频率分析,并观察结果.如果它们看起来不令人满意,则用Flesch-Kincaid得分对每个文本进行加权并再次运行分析 - 经常出现的单词,但在"困难"的文本中会得到提升,这就是你想要的.

但是,如果只有10000个单词,那么将频率排序作为第一遍进行,然后手动调整结果可能会更快.


BBa*_*agi 5

我不明白频率是如何使用的......如果你要浏览一份报纸,我相信你会看到“彻底”这个词比“bop”或“moo”这个词更频繁地被提及,但事实并非如此不是说这是一个更简单的词;相反,“彻底”是让小学生做噩梦的最令人作呕的荒谬拼写异常之一......

试着向一个正在学习英语作为第二语言的理智的人解释屠杀和笑声之间的微妙区别。

  • 哦耶!然后(在发音方面)为什么鞘/鞘花圈/花圈而不是呼吸/呼吸。 (2认同)

bor*_*ble 1

难度是一个相当无定形的概念。如果您不清楚自己想要什么,也许您可​​以看一下波特词干算法(例如参见原始论文)。通过将单词定义为以下形式,它包含了更高级的“长度”概念[C](VC){m}[V];C 表示辅音块,V 表示元音块,这个定义表示一个单词是一个可选的 C,后跟m 个VC 块,最后是一个可选的 V。m就是这个高级“长度”。