斯坦福解析器 - 用金融工具标记

Kas*_*sun 1 java finance nlp machine-learning stanford-nlp

我有一套财务文件(固定条款存款文件,信用卡文件).我想在这些文件中自动识别和标记金融实体/工具.

例如,如果文件中包含此短语,则"保留以利息偿还的权利,恕不另行通知".我想识别与之相关的财务条款,并用它标记,因为这句话是"可调用的".对于这个短语"允许提前提款",相关的财务条款是"可投放的",所以如果这个短语在文件中,我想用术语"Putable"标记它.

财务条款将来自金融业商业本体论.有没有可能为此目的使用斯坦福解析器?我可以将POS标签用于此目的吗?我可能需要用金融工具培训斯坦福大学的解析器,如果有可能我可以如何培训斯坦福大学的解析器来识别金融工具?

Chr*_*ing 7

开箱即用的解析器或词性标记器不会识别诸如此类的域特定概念.但是,它们提供的自然语言分析可能是解决方案的有用构建块.或者,如果您需要识别的短语足够接近固定短语,则可能没有必要,您应该集中精力寻找固定短语并对其进行分类.

虽然这些不是"命名实体",但问题更接近命名实体识别,因为您正在识别语义短语类.您可以注释要查找的短语示例,并使用命名实体识别器(例如,Stanford NER)训练模型,或编写与实例匹配的规则(使用GATE中的ANNIE或Stanford的TokensRegexPattern.