小编Mac*_*ner的帖子

最新的预训练多语言词嵌入

有没有最新的预训练多语言词嵌入(多种语言联合映射到同一个向量空间)?

我查看了以下内容,但它们不符合我的需求:

  1. FastText / MUSE ( https://fasttext.cc/docs/en/aligned-vectors.html ):这个似乎太旧了,并且词向量不使用子词/词片信息。
  2. LASER(https://github.com/yannvgn/laserembeddings):我现在正在使用这个,它使用子词信息(通过 BPE),但是,建议不要将其用于单词嵌入,因为它旨在嵌入句子(https://github.com/facebookresearch/LASER/issues/69)。
  3. BERT 多语言( https://huggingface.co/transformers/pretrained_models.html中的 bert-base-multilingual-uncased ):它是上下文化嵌入,可用于嵌入句子,并且似乎不擅长嵌入没有上下文的单词。

这是我试图解决的问题:

我有一个公司名称列表,可以是任何语言(主要是英语),并且我有一个英文关键字列表,用于衡量给定公司名称与关键字的接近程度。现在我有一个简单的关键字匹配解决方案,但我想使用预训练的嵌入来改进它。正如您在以下示例中看到的,存在几个挑战:

  1. 关键字和品牌名称不是用空格分隔的(现在我使用包“wordsegment”将单词拆分为子词),因此嵌入子词信息应该会有很大帮助
  2. 关键字列表并不广泛,公司名称可能采用不同的语言(这就是我想使用嵌入的原因,因为“足球”接近“足球”)

公司名称示例:“cheapfootball ltd.”、“wholesalefootball ltd.”、“footballer ltd.”、“soccershop ltd.”

关键词示例:“足球”

nlp word-embedding pre-trained-model fasttext bert-language-model

6
推荐指数
1
解决办法
6612
查看次数