您如何设计正则表达式来捕获法律引文?这是一个段落,显示了两个典型的法律引用:
我们坚持在各种情况下严格审查,即使对于所谓的"良性"种族分类,例如种族意识的大学录取政策,请参阅Grutter诉Bollinger,539 US 306,326(2003),基于种族的偏好政府合同,见上文Adarand,226,以及旨在改善少数民族代表性的基于种族的限制,参见Shaw诉Reno,509 US 630,650(1993).
引文将以逗号和空格,句点和空格或"信号"(如"看"或"看,例如")和空格开头.我无法弄清楚如何准确指定引文的开头.
我最熟悉Perl正则表达式,但也可以理解其他语言的例子.
那么你可以在一开始就使用以下内容。对于其他开始,您将需要更多模式。
/(, )|(see )/
Run Code Online (Sandbox Code Playgroud)
最终将证明是更大的问题。例如,在“参见 Adarand,上文,第 226 页,以及基于种族的...”中,没有明确的结束指示符。我怀疑纯正则表达式不足以完成此任务,您需要更高形式的语言分析。或者满足于只匹配所有引文的一个子集,或者有时匹配太多。