我们应该如何将 setDictionary 用于 Spark-NLP 中的词形还原注释器？

Question

我们应该如何将 setDictionary 用于 Spark-NLP 中的词形还原注释器？

我有一个要求，我必须在词形还原步骤中添加一个字典。在尝试在管道中使用它并执行 pipeline.fit() 时，我收到一个 arrayIndexOutOfBounds 异常。实现这一点的正确方法是什么？有什么例子吗？

我将 token 作为词形还原的 inputcol 和 lemma 作为 outputcol 传递。以下是我的代码：

    // DocumentAssembler annotator
    val document = new DocumentAssembler()
        .setInputCol("text")
        .setOutputCol("document")
    // SentenceDetector annotator
    val sentenceDetector = new SentenceDetector()
        .setInputCols("document")
        .setOutputCol("sentence")
    // tokenizer annotaor
    val token = new Tokenizer()
        .setInputCols("sentence")
        .setOutputCol("token")
    import com.johnsnowlabs.nlp.util.io.ExternalResource
     // lemmatizer annotator
    val lemmatizer = new Lemmatizer()
        .setInputCols(Array("token"))
        .setOutputCol("lemma")
     .setDictionary(ExternalResource("C:/data/notebook/lemmas001.txt","LINE_BY_LINE",Map("keyDelimiter"->",","valueDelimiter"->"|")))
    val pipeline = new Pipeline().setStages(Array(document,sentenceDetector,token,lemmatizer))
    val result= pipeline.fit(df).transform(df)

Run Code Online (Sandbox Code Playgroud)

错误信息是：

    Name: java.lang.ArrayIndexOutOfBoundsException
    Message: 1
    StackTrace:   at com.johnsnowlabs.nlp.util.io.ResourceHelper$$anonfun$flattenRevertValuesAsKeys$1$$anonfun$apply$14.apply(ResourceHelper.scala:315)
      at com.johnsnowlabs.nlp.util.io.ResourceHelper$$anonfun$flattenRevertValuesAsKeys$1$$anonfun$apply$14.apply(ResourceHelper.scala:312)
      at scala.collection.Iterator$class.foreach(Iterator.scala:891)
      at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
      at com.johnsnowlabs.nlp.util.io.ResourceHelper$$anonfun$flattenRevertValuesAsKeys$1.apply(ResourceHelper.scala:312)
      at com.johnsnowlabs.nlp.util.io.ResourceHelper$$anonfun$flattenRevertValuesAsKeys$1.apply(ResourceHelper.scala:312)
      at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
      at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
      at com.johnsnowlabs.nlp.util.io.ResourceHelper$.flattenRevertValuesAsKeys(ResourceHelper.scala:312)
      at com.johnsnowlabs.nlp.annotators.Lemmatizer.train(Lemmatizer.scala:52)
      at com.johnsnowlabs.nlp.annotators.Lemmatizer.train(Lemmatizer.scala:19)
      at com.johnsnowlabs.nlp.AnnotatorApproach.fit(AnnotatorApproach.scala:45)
      at org.apache.spark.ml.Pipeline$$anonfun$fit$2.apply(Pipeline.scala:153)
      at org.apache.spark.ml.Pipeline$$anonfun$fit$2.apply(Pipeline.scala:149)
      at scala.collection.Iterator$class.foreach(Iterator.scala:891)
      at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
      at scala.collection.IterableViewLike$Transformed$class.foreach(IterableViewLike.scala:44)
      at scala.collection.SeqViewLike$AbstractTransformed.foreach(SeqViewLike.scala:37)
      at org.apache.spark.ml.Pipeline.fit(Pipeline.scala:149)

Run Code Online (Sandbox Code Playgroud)

Answer 1

Maz*_*yar 3

你的管道对我来说看起来不错，所以一切都取决于里面的内容lemmas001.txt以及你是否能够在 Windows 上访问它。

注意：我见过 Windows 上的用户在 Apache Spark 中使用此功能：

"C:\\Users\\something\\Desktop\\someDirectory\\somefile.txt"

Run Code Online (Sandbox Code Playgroud)

如何Lemmatizer在 Spark NLP 中训练很简单：

"C:\\Users\\something\\Desktop\\someDirectory\\somefile.txt"

Run Code Online (Sandbox Code Playgroud)

该文件必须具有以下格式，其中是，keyDelimiter本例中->是：valueDelimiter\t

val lemmatizer = new Lemmatizer()
    .setInputCols(Array("token"))
    .setOutputCol("lemma")
    .setDictionary("AntBNC_lemmas_ver_001.txt", "->", "\t")

Run Code Online (Sandbox Code Playgroud)

另外，如果您不想训练自己的 Lemmatizer，您可以使用预先训练的模型，如下所示：

英语

abnormal    ->  abnormal    abnormals
abode   ->  abode   abodes
abolish ->  abolishing  abolished   abolish abolishes
abolitionist    ->  abolitionist    abolitionists
abominate   ->  abominate   abominated  abominates
abomination ->  abomination abominations
aboriginal  ->  aboriginal  aboriginals
aborigine   ->  aborigines  aborigine
abort   ->  aborted abort   aborts  aborting
abortifacient   ->  abortifacients  abortifacient
abortionist ->  abortionist abortionists
abortion    ->  abortion    abortions
abo ->  abo abos
abotrite    ->  abotrites   abotrite
abound  ->  abound  abounds abounding   abounded

Run Code Online (Sandbox Code Playgroud)

法语

val lemmatizer = new LemmatizerModel.pretrained(name="lemma_antbnc", lang="en")
    .setInputCols(Array("token"))
    .setOutputCol("lemma")

Run Code Online (Sandbox Code Playgroud)

意大利语

val lemmatizer = new LemmatizerModel.pretrained(name="lemma", lang="fr")
    .setInputCols(Array("token"))
    .setOutputCol("lemma")

Run Code Online (Sandbox Code Playgroud)

德语

val lemmatizer = new LemmatizerModel.pretrained(name="lemma", lang="it")
    .setInputCols(Array("token"))
    .setOutputCol("lemma")

Run Code Online (Sandbox Code Playgroud)

所有预训练模型的列表位于： https: //nlp.johnsnowlabs.com/docs/en/models

所有预训练管道的列表位于： https ://nlp.johnsnowlabs.com/docs/en/pipelines

如果您有更多问题，请在评论中告诉我。

全面披露：我是 Spark NLP 库的贡献者之一。

更新：如果您感兴趣，我在Databricks 上的 Scala中为您找到了这个示例（这实际上是他们训练意大利 Lemmatizer 模型的方式）

归档时间：	6 年，3 月前
查看次数：	1103 次
最近记录：	6 年，3 月前