Spark MLlib word2vec中的无限向量

Nat*_*lia 9 apache-spark word2vec

我有一个关于运行Spark MLlib的word2vec的问题.我运行它的词汇大小约为2.4M,语料库大小约为1.4B.为某些单词获取+ -infinity向量的原因是什么?它发生在我增加迭代次数时,即10次迭代我得到一个合理的模型,并且在20次迭代中我得到了一些形式为[Infinity,-Infinity,Infinity,-Infinity,...]的向量.提前致谢.

小智 -2

您可以对每个向量元素执行以下操作:

  def input_data(data_input:Double):Double =  {
  var result = data_input
  if (data_input.isInfinity || data_input.isNaN){
    result =0
  }
  result
}
Run Code Online (Sandbox Code Playgroud)