Fasttext .vec和.bin文件之间的区别

Bhu*_*ant 16 python nlp word2vec deep-learning fasttext

我最近下载了英语的fasttext预训练模型.我有两个文件:

  1. wiki.en.vec
  2. wiki.en.bin

我不确定这两个文件有什么区别?

fnl*_*fnl 19

这些.vec文件仅包含纯文本中的聚合单词向量.这些.bin文件包含模型参数,最重要的是,包含所有n-gram的向量.

因此,如果您想使用这些n-gram(FastText着名的"子词信息")编码您没有训练的单词,您需要找到一个可以处理FastText .bin文件的API (大多数只支持.vec文件,但是......).


Ami*_*mir 10

正如文件所说,

model.vec是一个包含单词vectors的文本文件,每行一个. model.bin是一个二进制文件,包含模型的参数以及字典和所有超参数.

换句话说,.vec文件格式与.txt文件格式相同,您可以在其他应用程序中使用它(例如,在FastText模型和Word2Vec模型之间交换数据,因为.vec文件类似于.txtWord2Vec生成的文件)..bin如果要继续训练向量或重新启动优化,可以使用该文件.