小编Ziz*_*upp的帖子

SpaCy:如何将自定义 NER 标签添加到预训练模型中?

我是 SpaCy 和 NLP 的新手。我正在使用 SpaCy v 3.1 和 Python 3.9.7 64 位。

我的目标:使用预先训练的 SpaCy 模型 ( en_core_web_sm) 并向现有 NER 标签(GPEPERSONMONEY等)添加一组自定义标签,以便模型可以识别默认实体和自定义实体。

我查看了 SpaCy 文档,我需要的似乎是EntityRecogniser,特别是一个新管道。

然而,我并不清楚应该在工作流程中的哪个点添加这个新管道,因为在 SpaCy 3 中,训练是在 CLI 中进行的,并且从文档中我什至不清楚预训练模型的名称在哪里。

非常感谢您可能拥有的任何教程或指示。

这是我认为应该做的,但我不确定如何做:

import spacy
from spacy import displacy
from spacy_langdetect import LanguageDetector
from spacy.language import Language
from spacy.pipeline import EntityRecognizer

# Load model
nlp = spacy.load("en_core_web_sm")

# Register custom component and turn a simple function into a pipeline component
@Language.factory('new-ner') …
Run Code Online (Sandbox Code Playgroud)

python nlp named-entity-recognition spacy

10
推荐指数
1
解决办法
6436
查看次数

Python:通过为每个原始元素添加 n 个元素来扩展字符串列表

我有以下字符串列表:

l1 = ['one','two','three']
Run Code Online (Sandbox Code Playgroud)

我想获得一个列表,例如,这些相同的元素重复了n多次。如果n=3我得到:

l2 = ['one','one','one','two','two','two','three','three','three']
Run Code Online (Sandbox Code Playgroud)

我正在尝试的是这样的:

l2 = [3*i for i in l1]
Run Code Online (Sandbox Code Playgroud)

但我得到的是:

l2 = ['oneoneone','twotwotwo','threethreethree']
Run Code Online (Sandbox Code Playgroud)

如果我试试这个:

l2 = [3*(str(i)+",") for i in l1]
Run Code Online (Sandbox Code Playgroud)

我获得:

l2 = ['one,one,one','two,two,two','three,three,three']
Run Code Online (Sandbox Code Playgroud)

我错过了什么?

python list-comprehension list

8
推荐指数
3
解决办法
406
查看次数

Visual Studio 2019:如何将项目保存到 Azure DevOps?

我是 Visual Studio 和 Azure DevOps 的新手。我在 Visual Studio 上创建了一个 ASP.NET 和 C# 项目,现在我想将它保存到 Azure DevOps 存储库。这个 repo 存在,我可以访问它。

如何从 Visual Studio 2019 中将此项目保存到该存储库?

抱歉,如果这听起来很傻,但我找不到一个像样的教程来展示这一点。

git azure azure-devops azure-repos visual-studio-2019

5
推荐指数
1
解决办法
5764
查看次数

C#:删除字符串中的多个无效字符

我是 C# 新手。假设我有一个这样的字符串:

\n\n
string test = \'yes/, I~ know# there@ are% invalid\xc2\xa3 characters$ in& this* string^";\n
Run Code Online (Sandbox Code Playgroud)\n\n

如果我想删除一个无效符号,我会这样做:

\n\n
if (test.Contains(\'/\')) \n{ \n    test = test.Replace("/","");\n} \n
Run Code Online (Sandbox Code Playgroud)\n\n

但是有没有办法我可以使用符号列表作为 and 的Contains参数Replace函数的参数,而不是逐个删除符号?

\n

c# string replace invalid-characters contains

5
推荐指数
1
解决办法
1181
查看次数

ASP.NET和C#:您将其余客户端URL存储在哪里?

我在后台的代码中硬编码了我的其余客户端URL,但是在对等检查我的代码时,我被要求将该URL移到配置文件中,以便可以针对每个环境对其进行更改。

Visual Studio 2019现在抱怨,因为我的其他客户端URL =在URL本身中具有无效符号作为令牌,并且期望;代替令牌。

有没有人遇到过这个问题,将其余客户端移动到配置文件是否正确?从理论上讲,这不应改变。

无法共享完整的网址,但是突出显示为错误的部分是:version=2.0&details=true

c# asp.net rest config visual-studio-2019

3
推荐指数
1
解决办法
76
查看次数

Keras LSTM:如何预测验证与预测之外的结果?

在处理时间序列预测时,我发现大多数人在使用 LSTM 模型时都遵循以下步骤:

  1. 获取、清理和预处理数据
  2. 取出验证数据集以便将来与模型预测进行比较
  3. 初始化并训练 LSTM 模型
  4. 使用验证数据集的副本进行与训练数据完全相同的预处理
  5. 使用经过训练的模型对转换后的验证数据进行预测
  6. 评估结果:预测与验证

然而,如果模型是准确的,如何做出超出验证期结束的预测呢?

以下仅接受以与训练数据相同的方式转换的数据,但对于超出验证期的预测,您没有任何输入数据可提供给模型。那么,人们如何做到这一点呢?

# Predictions vs validation
predictions = model.predict(transformed_validation)

# Future predictions
future_predictions = model.predict(?)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

machine-learning time-series lstm keras tensorflow

3
推荐指数
1
解决办法
2924
查看次数

Pandas:根据条件从 df 中提取数据到新的 df

我有以下 df1:

Person  Day1  Day2  Day3
1       2     1     1
2       2     0     7
3       4     1     2
Run Code Online (Sandbox Code Playgroud)

然后是另一个 df2:

Person  Day1  Day2  Day3
1       a     b     b
2       a     c     a
3       c     b     c
Run Code Online (Sandbox Code Playgroud)

所以这两个数据帧具有相同的索引和列。如何选择df2中只有“c”的df1元素?

当条件满足时,结果应该是来自 df1 的值,否则为 0:

Person  Day1  Day2  Day3
1       0     0     0
2       0     0     0
3       4     0     2
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

2
推荐指数
1
解决办法
219
查看次数

分块列表,包括重叠间隔

给出以下列表:

l1 = [0,1000,5000,10000,20000,30000,40000,50000]
Run Code Online (Sandbox Code Playgroud)

我知道我可以通过查看每对连续的数字来创建它的块:

def chunker(seq, size):
    return (seq[pos:pos + size] for pos in range(0, len(seq), size))

for group in chunker(l1, 2):
   print(group)
Run Code Online (Sandbox Code Playgroud)

返回:

[0, 1000]
[5000, 10000]
[20000, 30000]
[40000, 50000]
Run Code Online (Sandbox Code Playgroud)

如何确保[1000,5000]也包括重叠的时间间隔?

预期产量:

[0, 1000]
[1000, 5000] 
[5000, 10000]
[10000, 20000]
[20000, 30000]
[30000, 40000]
[40000, 50000]
Run Code Online (Sandbox Code Playgroud)

python list chunks

1
推荐指数
2
解决办法
51
查看次数