相关疑难解决方法(0)

我有大约100兆字节的文本,没有任何标记,分为大约10,000个条目.我想自动生成一个'标签'列表.问题是有些词组(即短语)只有在组合在一起时才有意义.

如果我只计算单词,我会得到大量非常常见的单词(是,for,for,in,am等).我已经计算了它之前和之后的其他单词的数量和数量,但现在我真的无法弄清楚下一步该做什么有关2和3个单词短语的信息存在,但我该如何提取这些数据呢？

43
推荐指数

3
解决办法

3万
查看次数

我意识到这是一个广泛的主题,但我正在寻找一个很好的入门,从文本解析意义,理想情况下在Python中.作为我要做的事情的一个例子,如果用户创建一个博客帖子,如:

"曼尼·拉米雷斯今天回击道奇队对阵休斯顿太空人队",

什么是轻量/轻松的方式从名词中取出名词？首先,我认为我将其限制为专有名词,但我不想仅限于此(我不想依赖于一个简单的正则表达式,假设任何标题上限是一个专有名词).

为了使这个问题更糟糕,我不会问我应该做什么？我需要一个现有单词的语料库来开始吗？为了使这项工作,我需要知道什么词法分析？我确实遇到过关于这个主题的另一个问题,现在我正在挖掘这些资源.

10
推荐指数

3
解决办法

1万
查看次数

nlp ×2