我有大约100兆字节的文本,没有任何标记,分为大约10,000个条目.我想自动生成一个'标签'列表.问题是有些词组(即短语)只有在组合在一起时才有意义.
如果我只计算单词,我会得到大量非常常见的单词(是,for,for,in,am等).我已经计算了它之前和之后的其他单词的数量和数量,但现在我真的无法弄清楚下一步该做什么有关2和3个单词短语的信息存在,但我该如何提取这些数据呢?
我意识到这是一个广泛的主题,但我正在寻找一个很好的入门,从文本解析意义,理想情况下在Python中.作为我要做的事情的一个例子,如果用户创建一个博客帖子,如:
"曼尼·拉米雷斯今天回击道奇队对阵休斯顿太空人队",
什么是轻量/轻松的方式从名词中取出名词?首先,我认为我将其限制为专有名词,但我不想仅限于此(我不想依赖于一个简单的正则表达式,假设任何标题上限是一个专有名词).
为了使这个问题更糟糕,我不会问我应该做什么?我需要一个现有单词的语料库来开始吗?为了使这项工作,我需要知道什么词法分析?我确实遇到过关于这个主题的另一个问题,现在我正在挖掘这些资源.