NLP中的英文单词分词?

cae*_*301 3 nlp web text-segmentation

我是NLP域的新手,但我目前的研究需要从URL地址进行一些文本解析(或称为关键字提取),例如假URL,

http://ads.goole.com/appid/heads
Run Code Online (Sandbox Code Playgroud)

我的解析有两个约束,

  1. 第一个"广告"和最后一个"头"应该是不同的,因为"头部"中的"广告"意味着更多的后缀而不是广告.

  2. "appid"可以解析为两部分; 这就是'app'和'id',它们都在互联网中具有语义含义.

我尝试过Stanford NLP工具包和Google搜索引擎.前者尝试用语法对每个单词进行分类,这意味着我的期望.谷歌引擎显示更多关于"appid"的智能,它给了我关于"app id"的建议.

我不能在Google搜索中查看搜索历史记录的引用,因此它给了我"app id",因为有很多人搜索过这些单词.我可以获得一些离线行方法来执行类似的解析吗?

更新:请跳过正则表达式建议,因为即使是简单的URL,也可能有未知数量的单词组合,例如"appid".

谢谢,

贾敏

Fra*_*ono 7

而不是标记化,它真正想要做的事情称为分词.例如,这是一种了解航天的能力的方法.

我还没有完成整个教程,但这应该让你开始.他们甚至将网址作为潜在的用例.

http://jeremykun.com/2012/01/15/word-segmentation/