roc*_*kit 31 algorithm nlp lexical-analysis semantics
我试图找出是否有一种可以检测句子"关键概念"的已知算法.
用例如下:
我们缺乏的领域是确定句子的核心"主题"究竟是什么.句子"鸡肉味道像火鸡"有一个主题"鸡",因为用户询问鸡的味道.虽然"火鸡"是一个不那么重要的帮手话题.
所以...我试图找出是否有一个算法可以帮助我识别一个句子的主要话题...如果你知道任何问题,请告诉我!
小智 21
我实际上就此做了一个研究项目并赢得了两场比赛并且正在参加国家比赛.
该方法有两个步骤:
例如,"我吃馅饼"有2个名词:"我"和"馅饼".查看解析树,"馅饼"在动词短语中,因此它不能成为主语.然而,"我"只是在NP类成分中.作为唯一的主题候选人,它是主题.在http://www.candlemind.com上找到该程序的早期副本.请注意,词汇仅限于基本的单数词,并且没有动词变形,因此它具有"男人"而不是"男人",具有"吃"而不是"吃".另外,我使用的CFG是手工制作的限量版.我将很快更新这个程序.
无论如何,这个计划有局限性.我的导师在其潮流状态中指出,它不能识别具有"真实"NP的主语句(语法实际上称为NP).例如,"月亮平坦不再是一场辩论." 主题实际上是"月亮是扁平的".但是,该计划将"月亮"视为主题.我很快就会解决这个问题.
无论如何,对于大多数句子来说这已经足够了......
我的研究论文也可以在那里找到.转到第11页阅读方法.
希望这可以帮助.
大多数基本的NLP解析技术都能够提取句子的基本方面 - 即,鸡和火鸡是一个NP,它们是由'和'形容词'等'联系在一起的.将这些与'主题'或'概念联系起来'更难
诸如潜在语义分析及其许多衍生物之类的技术将该信息转换为向量(一些具有在某些部分中保留语音部分之间的层次/关系的方法),然后将它们与通常按概念预先分类的现有向量进行比较.请参阅http://en.wikipedia.org/wiki/Latent_semantic_analysis以开始使用.
编辑这是一个示例LSA应用程序,你可以玩,看看你是否可能想要进一步追求它. http://lsi.research.telcordia.com/lsi/demos.html