无法下载 spark-nlp 库提供的管道

Question

无法下载 spark-nlp 库提供的管道

bha*_*ana 7 python apache-spark johnsnowlabs-spark-nlp

我无法使用 spark-nlp 库提供的预定义管道“recognize_entities_dl”

我尝试安装不同版本的 pyspark 和 spark-nlp 库

import sparknlp
from sparknlp.pretrained import PretrainedPipeline

#create or get Spark Session

spark = sparknlp.start()

sparknlp.version()
spark.version

#download, load, and annotate a text by pre-trained pipeline

pipeline = PretrainedPipeline('recognize_entities_dl', lang='en')
result = pipeline.annotate('Harry Potter is a great movie')

2.1.0
recognize_entities_dl download started this may take some time.

Run Code Online (Sandbox Code Playgroud)

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-13-b71a0f77e93a> in <module>
     11 #download, load, and annotate a text by pre-trained pipeline
     12 
---> 13 pipeline = PretrainedPipeline('recognize_entities_dl', 'en')
     14 result = pipeline.annotate('Harry Potter is a great movie')

d:\python36\lib\site-packages\sparknlp\pretrained.py in __init__(self, name, lang, remote_loc)
     89 
     90     def __init__(self, name, lang='en', remote_loc=None):
---> 91         self.model = ResourceDownloader().downloadPipeline(name, lang, remote_loc)
     92         self.light_model = LightPipeline(self.model)
     93 

d:\python36\lib\site-packages\sparknlp\pretrained.py in downloadPipeline(name, language, remote_loc)
     50     def downloadPipeline(name, language, remote_loc=None):
     51         print(name + " download started this may take some time.")
---> 52         file_size = _internal._GetResourceSize(name, language, remote_loc).apply()
     53         if file_size == "-1":
     54             print("Can not find the model to download please check the name!")

AttributeError: module 'sparknlp.internal' has no attribute '_GetResourceSize'

Run Code Online (Sandbox Code Playgroud)

Answer 1

Maz*_*yar 4

感谢您确认您的 Apache Spark 版本。预训练的管道和模型基于 Apache Spark 和 Spark NLP 版本。最低的 Apache Spark 版本必须能够2.4.x下载预先训练的模型/管道。否则，您需要之前为任何版本训练自己的模型/管道。

这是所有管道的列表，它们全部适用于 Apache Spark 2.4.x： https ://nlp.johnsnowlabs.com/docs/en/pipelines

如果您查看任何模型或管道的 URL，您可以看到以下信息：

recognize_entities_dl_en_2.1.0_2.4_1562946909722.zip

姓名：recognize_entities_dl
郎：en
Spark NLP：必须等于2.1.0或大于
Apache Spark：等于2.4.x或大于

注意：Spark NLP 库正在针对 Apache Spark 构建和编译2.4.x。这就是模型和管道仅适用于该2.4.x版本的原因。

注2：由于您使用的是Windows，因此需要使用_noncontrib与Windows兼容的模型和管道：Spark-NLP预训练管道仅适用于Linux系统吗？

我希望这个答案能够帮助并解决您的问题。

2020 年 4 月更新：显然，在 Apache Spark 2.4.x 上训练和上传的模型和管道也与 Apache Spark 2.3.x 兼容。因此，如果您使用的是 Apache Spark 2.3.x，即使您无法用于pretrained()自动下载，您也可以手动下载并使用.load()。

所有模型和管道的完整列表以及下载链接：https ://github.com/JohnSnowLabs/spark-nlp-models

更新：2.4.0版本发布后，所有模型和管道都是跨平台的，无需为任何特定操作系统选择不同的模型/管道： https: //github.com/JohnSnowLabs/spark-nlp/releases/标签/2.4.0

对于较新的版本：https ://github.com/JohnSnowLabs/spark-nlp/releases

归档时间：	6 年，4 月前
查看次数：	2050 次
最近记录：	5 年，6 月前