法律文本的NLP？

Question

法律文本的NLP？

Mat*_*tW. 9 nlp stanford-nlp parsey-mcparseface syntaxnet

我有几十万份法律文件(大部分来自欧盟) - 法律,评论,法庭文件等.我试图在算法上对它们有所了解.

我已经建模了已知的关系(时间,这个 - 变化 - 等等).但在单文档级别上,我希望我有更好的工具来快速理解.我愿意接受各种想法,但这是一个更具体的问题:

例如:是否有NLP方法来确定文档的相关/有争议部分而不是样板文件？最近泄露的TTIP论文是数千页的数据表,但在那里的一个句子可能会破坏一个行业.

我Parsey McParface过去常常使用google的新版和其他NLP解决方案,但是虽然它们的工作效果非常好,但我不确定它们在隔离意义方面有多好.

Answer 1

Gab*_*l M 5

为了理解文档,您需要执行某种语义分析.你有两个主要的可能性:

使用框架语义:http: //www.cs.cmu.edu/~ark/SEMAFOR/

使用语义角色标签(SRL):http: //cogcomp.org/page/demo_view/srl

一旦您能够从文档中提取信息,您就可以应用一些后处理来确定哪些信息是相关的.找到相关的信息与任务相关,我认为您无法找到提取"相关"信息的通用工具.

Answer 2

小智 2

我发现你有一个有趣的用例。您还提到了语料库的存在（这是一个非常好的优点）。让我讲述一个我为从研究论文中提取关键问题而草拟的解决方案。

为了理解文档，您需要触发器来告诉（或训练）计算机寻找这些“触发器”。您可以使用监督学习算法来解决这个问题，并在最基本的层面上简单地实现文本分类问题。但这需要事先进行工作，需要领域专家的帮助，以便从文本数据中辨别“触发器”。有一些工具可以提取句子的要点 - 例如，在句子中提取名词短语，根据共现分配权重并将其表示为向量。这是您的训练数据。这可能是将 NLP 纳入您的领域的一个非常好的开始。

归档时间：	9 年，10 月前
查看次数：	1379 次
最近记录：	8 年，4 月前