小编Ziz_upp的帖子

SpaCy：如何将自定义 NER 标签添加到预训练模型中？

我是 SpaCy 和 NLP 的新手。我正在使用 SpaCy v 3.1 和 Python 3.9.7 64 位。

我的目标：使用预先训练的 SpaCy 模型 ( en_core_web_sm) 并向现有 NER 标签（GPE、PERSON、MONEY等）添加一组自定义标签，以便模型可以识别默认实体和自定义实体。

我查看了 SpaCy 文档，我需要的似乎是EntityRecogniser，特别是一个新管道。

然而，我并不清楚应该在工作流程中的哪个点添加这个新管道，因为在 SpaCy 3 中，训练是在 CLI 中进行的，并且从文档中我什至不清楚预训练模型的名称在哪里。

非常感谢您可能拥有的任何教程或指示。

这是我认为应该做的，但我不确定如何做：

import spacy
from spacy import displacy
from spacy_langdetect import LanguageDetector
from spacy.language import Language
from spacy.pipeline import EntityRecognizer

# Load model
nlp = spacy.load("en_core_web_sm")

# Register custom component and turn a simple function into a pipeline component
@Language.factory('new-ner') …

Run Code Online (Sandbox Code Playgroud)

python nlp named-entity-recognition spacy

10
推荐指数

1
解决办法

6436
查看次数

Python：通过为每个原始元素添加 n 个元素来扩展字符串列表

我有以下字符串列表：

l1 = ['one','two','three']

Run Code Online (Sandbox Code Playgroud)

我想获得一个列表，例如，这些相同的元素重复了n多次。如果n=3我得到：

l2 = ['one','one','one','two','two','two','three','three','three']

Run Code Online (Sandbox Code Playgroud)

我正在尝试的是这样的：

l2 = [3*i for i in l1]

Run Code Online (Sandbox Code Playgroud)

但我得到的是：

l2 = ['oneoneone','twotwotwo','threethreethree']

Run Code Online (Sandbox Code Playgroud)

如果我试试这个：

l2 = [3*(str(i)+",") for i in l1]

Run Code Online (Sandbox Code Playgroud)

我获得：

l2 = ['one,one,one','two,two,two','three,three,three']

Run Code Online (Sandbox Code Playgroud)

我错过了什么？

python list-comprehension list

8
推荐指数

3
解决办法

406
查看次数

Visual Studio 2019：如何将项目保存到 Azure DevOps？

我是 Visual Studio 和 Azure DevOps 的新手。我在 Visual Studio 上创建了一个 ASP.NET 和 C# 项目，现在我想将它保存到 Azure DevOps 存储库。这个 repo 存在，我可以访问它。

如何从 Visual Studio 2019 中将此项目保存到该存储库？

抱歉，如果这听起来很傻，但我找不到一个像样的教程来展示这一点。

git azure azure-devops azure-repos visual-studio-2019

5
推荐指数

1
解决办法

5764
查看次数

C#：删除字符串中的多个无效字符

我是 C# 新手。假设我有一个这样的字符串：

\n\n

string test = \'yes/, I~ know# there@ are% invalid\xc2\xa3 characters$ in& this* string^";\n

Run Code Online (Sandbox Code Playgroud)\n\n

如果我想删除一个无效符号，我会这样做：

\n\n

if (test.Contains(\'/\')) \n{ \n    test = test.Replace("/","");\n} \n

Run Code Online (Sandbox Code Playgroud)\n\n

但是有没有办法我可以使用符号列表作为 and 的Contains参数Replace函数的参数，而不是逐个删除符号？

\n

c# string replace invalid-characters contains

5
推荐指数

1
解决办法

1181
查看次数

ASP.NET和C＃：您将其余客户端URL存储在哪里？

我在后台的代码中硬编码了我的其余客户端URL，但是在对等检查我的代码时，我被要求将该URL移到配置文件中，以便可以针对每个环境对其进行更改。

Visual Studio 2019现在抱怨，因为我的其他客户端URL =在URL本身中具有无效符号作为令牌，并且期望;代替令牌。

有没有人遇到过这个问题，将其余客户端移动到配置文件是否正确？从理论上讲，这不应改变。

无法共享完整的网址，但是突出显示为错误的部分是：version=2.0&details=true。

c# asp.net rest config visual-studio-2019

3
推荐指数

1
解决办法

76
查看次数

Keras LSTM：如何预测验证与预测之外的结果？

在处理时间序列预测时，我发现大多数人在使用 LSTM 模型时都遵循以下步骤：

获取、清理和预处理数据
取出验证数据集以便将来与模型预测进行比较
初始化并训练 LSTM 模型
使用验证数据集的副本进行与训练数据完全相同的预处理
使用经过训练的模型对转换后的验证数据进行预测
评估结果：预测与验证

然而，如果模型是准确的，如何做出超出验证期结束的预测呢？

以下仅接受以与训练数据相同的方式转换的数据，但对于超出验证期的预测，您没有任何输入数据可提供给模型。那么，人们如何做到这一点呢？

# Predictions vs validation
predictions = model.predict(transformed_validation)

# Future predictions
future_predictions = model.predict(?)

Run Code Online (Sandbox Code Playgroud)

machine-learning time-series lstm keras tensorflow

3
推荐指数

1
解决办法

2924
查看次数

Pandas：根据条件从 df 中提取数据到新的 df

我有以下 df1：

Person  Day1  Day2  Day3
1       2     1     1
2       2     0     7
3       4     1     2

Run Code Online (Sandbox Code Playgroud)

然后是另一个 df2：

Person  Day1  Day2  Day3
1       a     b     b
2       a     c     a
3       c     b     c

Run Code Online (Sandbox Code Playgroud)

所以这两个数据帧具有相同的索引和列。如何选择df2中只有“c”的df1元素？

当条件满足时，结果应该是来自 df1 的值，否则为 0：

Person  Day1  Day2  Day3
1       0     0     0
2       0     0     0
3       4     0     2

Run Code Online (Sandbox Code Playgroud)

python dataframe pandas

2
推荐指数

1
解决办法

219
查看次数

分块列表，包括重叠间隔

给出以下列表：

l1 = [0,1000,5000,10000,20000,30000,40000,50000]

Run Code Online (Sandbox Code Playgroud)

我知道我可以通过查看每对连续的数字来创建它的块：

def chunker(seq, size):
    return (seq[pos:pos + size] for pos in range(0, len(seq), size))

for group in chunker(l1, 2):
   print(group)

Run Code Online (Sandbox Code Playgroud)

返回：

[0, 1000]
[5000, 10000]
[20000, 30000]
[40000, 50000]

Run Code Online (Sandbox Code Playgroud)

如何确保[1000,5000]也包括重叠的时间间隔？

预期产量：

[0, 1000]
[1000, 5000] 
[5000, 10000]
[10000, 20000]
[20000, 30000]
[30000, 40000]
[40000, 50000]

Run Code Online (Sandbox Code Playgroud)

python list chunks

1
推荐指数

2
解决办法

51
查看次数

标签统计

c# ×2

list ×2

visual-studio-2019 ×2

azure-devops ×1

azure-repos ×1

git ×1

invalid-characters ×1

list-comprehension ×1

lstm ×1

machine-learning ×1

named-entity-recognition ×1

nlp ×1

rest ×1

time-series ×1