Mac*_*ner 6 nlp word-embedding pre-trained-model fasttext bert-language-model
有没有最新的预训练多语言词嵌入(多种语言联合映射到同一个向量空间)?
我查看了以下内容,但它们不符合我的需求:
这是我试图解决的问题:
我有一个公司名称列表,可以是任何语言(主要是英语),并且我有一个英文关键字列表,用于衡量给定公司名称与关键字的接近程度。现在我有一个简单的关键字匹配解决方案,但我想使用预训练的嵌入来改进它。正如您在以下示例中看到的,存在几个挑战:
公司名称示例:“cheapfootball ltd.”、“wholesalefootball ltd.”、“footballer ltd.”、“soccershop ltd.”
关键词示例:“足球”
小智 0
我认为使用嵌入到此应用程序中来构建模型可能会有点误导(通过经验学习)。因为如果有两家公司,football ltd 和soccer ltd,模型可能会说两者是匹配的,这可能不正确。一种方法是删除多余的单词,即,corporation 来自 Facebook Corporation,ltd 来自 Facebook ltd,并尝试匹配。
另一种方法是使用deepmatcher,它使用基于单词上下文的深度学习模糊匹配。 关联
如果句子相似度是您想要遵循的 STSBenchmark 算法的主要方法可能值得探索:链接
Sent2vec链接和 InferSent Link使用 Fasttext 但似乎在 STSBenchmark 上有不错的结果