小编iCH*_*AIT的帖子

如何在 Amazon Sagemaker 处理作业中安装 python 包？

我正在尝试在 Amazon Sagemekar 中创建 Sklearn 处理作业，以便在进行模型训练之前对输入数据执行一些数据转换。

我编写了一个自定义 python 脚本preprocessing.py来完成所需的工作。我在这个脚本中使用了一些 python 包。这是我遵循的 Sagemaker 示例。

当我尝试提交处理作业时，出现错误 -

............................Traceback (most recent call last):
  File "/opt/ml/processing/input/code/preprocessing.py", line 6, in <module>
    import snowflake.connector
ModuleNotFoundError: No module named 'snowflake.connector'

Run Code Online (Sandbox Code Playgroud)

我了解我的处理作业无法找到此软件包，我需要安装它。我的问题是如何使用 Sagemaker 处理作业 API 来完成此任务？理想情况下，应该有一种方法可以requirements.txt在 API 调用中定义 a，但我在文档中没有看到这样的功能。

我知道我可以使用相关包创建自定义图像，然后在处理作业中使用该图像，但这对于应该内置的东西来说似乎工作量太大了？

是否有更简单/优雅的方法来安装 Sagemaker 处理作业所需的软件包？

amazon-web-services amazon-sagemaker

iCH*_*AIT

2021 12-07

10
推荐指数

1
解决办法

8471
查看次数

如何在Spacy的句子中获取实体的索引？

我想知道是否有一种优雅的方法来获取实体相对于句子的索引。我知道我可以使用ent.start_charand获取字符串中实体的索引ent.end_char，但该值是相对于整个字符串的。

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp(u"Apple is looking at buying U.K. startup for $1 billion. Apple just launched a new Credit Card.")

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Run Code Online (Sandbox Code Playgroud)

我希望Apple两个句子中的实体分别指向开始和结束索引 0 和 5。我怎样才能做到这一点？

python nlp spacy

iCH*_*AIT

lucky-day

5
推荐指数

1
解决办法

1637
查看次数

如何在 Spacy 中优先考虑基于规则的匹配而不是训练有素的 NER 模型？

我正在为生物医学文本（来自 Pubmed 的癌症论文）构建命名实体识别模型。我使用 spacy 为 3 种实体（疾病、基因和药物）类型训练了一个自定义 NER 模型。此外，我将模型与基于规则的组件相结合，以提高模型的准确性。

这是我当前的代码 -


# Loaded the trained NER Model
nlp = spacy.load("my_spacy_model")

# Define entity patterns for EntityRuler (just showing 2 relevant patterns here, it contains more patterns)
patterns = [{"label": "GENE", "pattern": "BRCA1"},
            {"label": "GENE", "pattern": "BRCA2"}]

ruler = EntityRuler(nlp)

ruler.add_patterns(patterns)

nlp.add_pipe(ruler)

Run Code Online (Sandbox Code Playgroud)

当我在以下文本中测试上述代码时 -

text = "Exceptional response to olaparib in BRCA2-altered breast cancer after PD-L1 inhibitor and chemotherapy failure"

Run Code Online (Sandbox Code Playgroud)

我得到以下结果 -

DISEASE  BRCA2-altered breast cancer
DRUG …

Run Code Online (Sandbox Code Playgroud)

nlp python-3.x spacy

iCH*_*AIT

lucky-day

1
推荐指数

1
解决办法

654
查看次数

标签统计

nlp ×2

spacy ×2

amazon-sagemaker ×1

amazon-web-services ×1

python ×1

python-3.x ×1

如何在 Amazon Sagemaker 处理作业中安装 python 包？

如何在Spacy的句子中获取实体的索引？

如何在 Spacy 中优先考虑基于规则的匹配而不是训练有素的 NER 模型？

标签 统计

小编iCH_AIT的帖子

标签统计