真正定义英文单词?

OTZ*_*OTZ 4 regex nlp

什么是英语单词的最佳定义?

英语单词的其他案例不仅仅是\w+什么?有些可能包括\w+-\w+\w+'\w+; 有些人可能会排除像\b[0-9]+\b.但我没有看到对这些案件达成任何普遍共识.我们有这样的正式定义吗?你们任何人都可以澄清吗?

(编辑:扩大问题,使其不依赖于正则表达式.)

Laz*_*rus 6

我真的不认为正则表达式会在这里帮助你,英语(或任何语言)文本的问题是上下文.如果没有它,你可以确定单词边界之间的区别是文本,数字,随机字符集等.对于NLP,我认为你将选择语言的一个子集并寻找特定的单词而不是尝试从字符串中提取所有"单词".