Mat*_*tW. 9 nlp stanford-nlp parsey-mcparseface syntaxnet
我有几十万份法律文件(大部分来自欧盟) - 法律,评论,法庭文件等.我试图在算法上对它们有所了解.
我已经建模了已知的关系(时间,这个 - 变化 - 等等).但在单文档级别上,我希望我有更好的工具来快速理解.我愿意接受各种想法,但这是一个更具体的问题:
例如:是否有NLP方法来确定文档的相关/有争议部分而不是样板文件?最近泄露的TTIP论文是数千页的数据表,但在那里的一个句子可能会破坏一个行业.
我Parsey McParface过去常常使用google的新版和其他NLP解决方案,但是虽然它们的工作效果非常好,但我不确定它们在隔离意义方面有多好.
为了理解文档,您需要执行某种语义分析.你有两个主要的可能性:
使用框架语义:http: //www.cs.cmu.edu/~ark/SEMAFOR/
使用语义角色标签(SRL):http: //cogcomp.org/page/demo_view/srl
一旦您能够从文档中提取信息,您就可以应用一些后处理来确定哪些信息是相关的.找到相关的信息与任务相关,我认为您无法找到提取"相关"信息的通用工具.
小智 2
我发现你有一个有趣的用例。您还提到了语料库的存在(这是一个非常好的优点)。让我讲述一个我为从研究论文中提取关键问题而草拟的解决方案。
为了理解文档,您需要触发器来告诉(或训练)计算机寻找这些“触发器”。您可以使用监督学习算法来解决这个问题,并在最基本的层面上简单地实现文本分类问题。但这需要事先进行工作,需要领域专家的帮助,以便从文本数据中辨别“触发器”。有一些工具可以提取句子的要点 - 例如,在句子中提取名词短语,根据共现分配权重并将其表示为向量。这是您的训练数据。这可能是将 NLP 纳入您的领域的一个非常好的开始。