如何使用fasttext对整个文本进行矢量化?

And*_*ey 7 facebook nlp fasttext

要获得单词的向量,我可以使用:

model["word"]
Run Code Online (Sandbox Code Playgroud)

但是如果我想获得一个句子的向量,我需要对所有单词的向量求和或得到所有向量的平均值.

FastText是否提供了这样做的方法?

Aan*_*103 10

如果您想计算句子或段落的矢量表示,请使用:

$ ./fasttext print-sentence-vectors model.bin < text.txt

这假定text.txt文件包含您想要获取向量的段落.程序将在文件中每行输出一个矢量表示.

这在fasttext repo的README中已经清楚地提到过. https://github.com/facebookresearch/fastText

  • 好吧,这真的很难解释:P我会尝试用更简单的词来解释.当你打印print-vectors时,你提供一个文件(你的输入文件有很多段落或句子,文件的一行被视为一个段落).您可以根据需要在文件中包含尽可能多的段落.您只需调用一次打印向量,它将输出输入文件中所有行的向量.我建议你通过Fasttext文档,一切都在那里很好地提到.:) (3认同)
  • 不,这个'print-vectors'命令的目的是为你提供文件中所有行的向量.如果再次看到命令,则"text.txt"是包含预处理数据的文件(即每行一个段落).您只需将所有句子放入指定格式的文件中,并将该文件作为选项传递给"print-vectors". (2认同)