我有一个很大的(~50k)术语列表,其中许多关键短语/术语都有相应的首字母缩略词/缩写词。我需要一种快速查找缩写或扩展缩写(即 MS -> Microsoft )的方法,然后将其替换为完整的扩展缩写 + 缩写(即 Microsoft -> Microsoft (MS) 或 MS -> Microsoft (MS) ) .
我对 spaCy 很陌生,所以我的天真的方法是使用spacy_lookup并使用缩写和扩展缩写作为关键字,然后使用某种管道扩展然后通过匹配项并将它们替换为完全扩展缩写+缩写。
有没有更好的方法来标记和解析 spaCy 中的首字母缩略词/缩写词?