是否存在一种算法来帮助检测英语句子的"主要主题"?

roc*_*kit 31 algorithm nlp lexical-analysis semantics

我试图找出是否有一种可以检测句子"关键概念"的已知算法.

用例如下:

  1. 用户输入一个句子作为查询(鸡的味道像火鸡吗?)
  2. 我们的系统识别句子的概念(鸡,火鸡)
  3. 它会搜索我们的语料库内容

我们缺乏的领域是确定句子的核心"主题"究竟是什么.句子"鸡肉味道像火鸡"有一个主题"鸡",因为用户询问鸡的味道.虽然"火鸡"是一个不那么重要的帮手话题.

所以...我试图找出是否有一个算法可以帮助我识别一个句子的主要话题...如果你知道任何问题,请告诉我!

小智 21

我实际上就此做了一个研究项目并赢得了两场比赛并且正在参加国家比赛.

该方法有两个步骤:

  1. 用无上下文语法解析句子
  2. 在生成的解析树中,找到所有仅属于类似Noun-Phrase的成分的名词

例如,"我吃馅饼"有2个名词:"我"和"馅饼".查看解析树,"馅饼"在动词短语中,因此它不能成为主语.然而,"我"只是在NP类成分中.作为唯一的主题候选人,它是主题.在http://www.candlemind.com找到该程序的早期副本.请注意,词汇仅限于基本的单数词,并且没有动词变形,因此它具有"男人"而不是"男人",具有"吃"而不是"吃".另外,我使用的CFG是手工制作的限量版.我将很快更新这个程序.

无论如何,这个计划有局限性.我的导师在其潮流状态中指出,它不能识别具有"真实"NP的主语句(语法实际上称为NP).例如,"月亮平坦不再是一场辩论." 主题实际上是"月亮是扁平的".但是,该计划将"月亮"视为主题.我很快就会解决这个问题.

无论如何,对于大多数句子来说这已经足够了......

我的研究论文也可以在那里找到.转到第11页阅读方法.

希望这可以帮助.

  • 句子的语法主语与其主题不同.例如,在你回答的中间你说:_我将很快更新这个程序._鉴于它的上下文,这句话的主题是_this program_,因为这是句子发表声明_about_.但是,语法科目是_I_. (11认同)

dfb*_*dfb 9

大多数基本的NLP解析技术都能够提取句子的基本方面 - 即,鸡和火鸡是一个NP,它们是由'和'形容词'等'联系在一起的.将这些与'主题'或'概念联系起来'更难

诸如潜在语义分析及其许多衍生物之类的技术将该信息转换为向量(一些具有在某些部分中保留语音部分之间的层次/关系的方法),然后将它们与通常按概念预先分类的现有向量进行比较.请参阅http://en.wikipedia.org/wiki/Latent_semantic_analysis以开始使用.

编辑这是一个示例LSA应用程序,你可以玩,看看你是否可能想要进一步追求它. http://lsi.research.telcordia.com/lsi/demos.html


Fre*_*Foo 1

“关键概念”在语言学中并不是一个明确定义的术语,但这可能是一个起点:解析句子,在得到的解析树或依存结构中找到主语。(这并不总是有效;例如,“正在下雨吗?”的主题是“它”,而关键概念可能是“雨”。另外,“意大利面条和千层面是同一件事吗?”中的关键概念是什么?”)

这种问题(NLP + 搜索)通过LSA等方法可以更妥善地处理,但这是一个相当高级的主题。