Transformers v4.x：将慢速分词器转换为快速分词器

我正在关注变压器的预训练模型xlm-roberta-large-xnli示例

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="joeddav/xlm-roberta-large-xnli")

Run Code Online (Sandbox Code Playgroud)

我收到以下错误

ValueError: Couldn't instantiate the backend tokenizer from one of: (1) a `tokenizers` library serialization file, (2) a slow tokenizer instance to convert or (3) an equivalent slow tokenizer class to instantiate and convert. You need to have sentencepiece installed to convert a slow tokenizer to a fast one.

Run Code Online (Sandbox Code Playgroud)

我用的是变形金刚版 '4.1.1'

python nlp huggingface-transformers huggingface-tokenizers

Mig*_*ejo

2020 12-24

9
推荐指数

3
解决办法

4379
查看次数

如何计算整个 pandas 数据集的成对互信息？

我的数据框中有 50 个变量。46 个是因变量，4 个是自变量（降水量、温度、露水、雪）。我想计算因变量相对于自变量的互信息。

所以最后我想要一个像这样的数据框

现在我正在使用以下方法计算它，但它花了很长时间，因为我每次都必须更改我的y

X = df[['Temperature', 'Precipitation','Dew','Snow']] # Features
y = df[['N0037']] #target 

from sklearn.feature_selection import mutual_info_regression
mi = mutual_info_regression(X, y)
mi /= np.max(mi)

mi = pd.Series(mi)
mi.index = X.columns
mi.sort_values(ascending=False)
mi

Run Code Online (Sandbox Code Playgroud)

python dataframe pandas scikit-learn mutual-information

Den*_*se

2021 06-15

8
推荐指数

1
解决办法

3929
查看次数

如何将不返回数值的函数应用于熊猫滚动窗口？

我有一个日期时间系列的 dtype：float64。我正在尝试将自定义函数应用于该系列的滚动窗口。我希望这个函数返回字符串。但是，这会生成 TypeError。为什么这会产生错误，有没有办法直接通过应用一个函数来使这个工作？

下面是一个例子：

import numpy as np
import pandas as pd

np.random.seed(1)
number_series = pd.Series(np.random.randint(low=1,high=100,size=100),index=[pd.date_range(start='2000-01-01',freq='W',periods=100)])
number_series = number_series.apply(lambda x: float(x))

def func(s):
    
    if s[-1] > s[-2] > s[-3]:
        return 'High'
    elif s[-1] > s[-2]:
        return 'Medium'
    else:
        return 'Low'

new_series = number_series.rolling(5).apply(func)

Run Code Online (Sandbox Code Playgroud)

结果是以下错误：

TypeError: must be real number, not str

Run Code Online (Sandbox Code Playgroud)

我目前采用的解决方法是修改 func 以将整数输出到一个系列，然后将另一个函数应用于该系列以生成新系列。按照下面的例子：

def func_float(s):
    
    if s[-1] > s[-2] > s[-3]:
        return 1
    elif s[-1] > s[-2]:
        return 2
    else:
        return 3
    
float_series = number_series.rolling(5).apply(func_float)

def func_text(s):

    if s …

Run Code Online (Sandbox Code Playgroud)

python series apply pandas rolling-computation

agf*_*ing

2021 03-25

8
推荐指数

2
解决办法

166
查看次数

使用语义版本控制或 Lerna Publish 从 CI/CD 部署时如何确保 Master 和 Dev 分支保持同步

设置

我有几个 gitlab 存储库，其中一般设置涉及一个master分支、一个stage（预发布）分支和一个dev分支。

所有 3 个分支的推送权限均被禁用。

工作流程是从dev分支中派生任何修补程序、错误修复和功能。当您对发布感到满意时，您将向提交合并请求dev。最终，当内部准备好稳定的构建时dev；将为该分支提交合并请求stage。最后，当您对预发布感到满意时，您将提交分支的合并请求master。

我配置了 CI/CD，以便通过自动生成文件从master和分支自动执行测试、构建和部署。分支部署到 UAT s3 Bucket 并部署到生产 s3 Bucket。stageCHANGELOG.mdstagemaster

部署是通过Semantic Versioning 2.0.0它来处理的，它负责更新版本、生成变更日志和部署。

我有一个与上面描述的类似的设置，除了它是一个 monorepo，所以我用来Lerna处理发布（部署）和{"conventionalCommits": true}复制Semantic Versioning 2.0.0的行为。我在 monorepo 中使用独立版本控制。

和的Semantic Versioning 2.0.0设置都Lerna强制master分支始终位于和分支之后或等于stage和dev分支；并且stage分支始终位于分支后面或等于dev分支，就像级联效应一样。

dev>= stage …

semantic-versioning gitlab gitlab-ci lerna conventional-commits

Dan*_*llo

2021 04-01

7
推荐指数

1
解决办法

1668
查看次数

Seaborn：ValueError：调色板='jet'否

使用参数从seaborn文档运行以下示例palette='jet'

import seaborn as sns
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker", data=tips, palette='jet')

Run Code Online (Sandbox Code Playgroud)

出现以下错误

    172         elif palette.lower() == "jet":
    173             # Paternalism
--> 174             raise ValueError("No.")
    175 
    176         elif palette.startswith("ch:"):

ValueError: No.

Run Code Online (Sandbox Code Playgroud)

jet调色板出现此错误的原因是什么？我想知道错误消息是否可以更具体，因为 matplotlib文档指出以下内容

常用的 jet 颜色图包含在这组颜色图中。我们可以看到整个颜色图中的值差异很大，这使得它不适合代表观看者感知的数据。

python matplotlib seaborn colormap

Mig*_*ejo

lucky-day

7
推荐指数

1
解决办法

2555
查看次数

Lambda 无权访问 ECR 映像

随着最近发布的Lambda功能Docker 映像，我决定使用CloudFormation.

因此，下面的 lambda 考虑了存储在中的 docker 图像Elastic Container Registry，并有权按照文档中的示例访问该图像。

AWSTemplateFormatVersion: '2010-09-09'
Transform: AWS::Serverless-2016-10-31
Description: lambda-docker-image

Globals:
  Function:
    Timeout: 180

Resources:
  DockerAsImage:
    Type: AWS::Serverless::Function 
    Properties:
      FunctionName: DockerAsImage
      ImageUri: ??????????????.dkr.ecr.us-west-2.amazonaws.com/????:latest
      PackageType: Image
      Policies: 
        - Version: '2012-10-17' 
          Statement:
            - Effect: Allow
              Action: 
                - ecr:*
                - ecr-public:*
                - sts:GetServiceBearerToken
              Resource: "*"
      Events:
        HelloWorld:
          Type: Api
          Properties:
            Path: /hello
            Method: post

Run Code Online (Sandbox Code Playgroud)

我使用的是sam部署在模板us-west-2与

sam deploy -t template.yaml --capabilities "CAPABILITY_NAMED_IAM" --region "us-west-2" --stack-name "lambda-docker-example" …

Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-ecs aws-cloudformation aws-lambda aws-sam-cli

Mig*_*ejo

2020 12-05

6
推荐指数

3
解决办法

3314
查看次数

如何将预定义的 json 环境变量传递给 gitlab 作业？

我不知道如何将 json 文件中的一些环境变量传递给 Gitlab CI，特别是我在 cypress.io 中使用的环境变量。

Gitlab CI 当然有一个部分，您可以在其中以变量或文件的形式指定环境变量。

然而，Gitlab CI 抱怨“变量键只能包含字母、数字和‘_’”。

所以，我思考过的事情：

使用覆盖 cypress 使用的 env 文件，--env然后指定一个文件，例如

# cypress-env
{
  "username": "xxxx",
  "password": "xxxx"
}

Run Code Online (Sandbox Code Playgroud)

创建此答案中指定的文件/sf/answers/3890681511/
要求 Cypress.io 团队提供一个有关如何执行此操作的示例（他们优秀的文档没有类似的示例）。
研究更多有关在 Gitlab CI 中指定文件变量的信息。Gitlab 产生的错误有些奇怪。为什么他们不允许文件变量中出现点？我一定做错了什么。

gitlab gitlab-ci cypress

fin*_*gia

2021 03-29

6
推荐指数

1
解决办法

1万
查看次数

Sklearn Transformers：如何将编码器应用于多个列并在生产中重用它？

我在训练期间使用标签编码器，并希望通过保存并稍后加载来在生产中使用相同的编码器。无论我在网上找到什么解决方案，都只允许标签编码器一次应用于单个列，如下所示：

for col in col_list:
    df[col]= df[[col]].apply(LabelEncoder().fit_transform)

Run Code Online (Sandbox Code Playgroud)

这种情况下如何保存并以后使用呢？因为我尝试拟合整个数据框，但出现以下错误。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
C:\Users\DA~1\AppData\Local\Temp/ipykernel_3884/730613134.py in <module>
----> 1 l_enc.fit_transform(df_join[le_col].astype(str))

~\anaconda3\envs\ReturnRate\lib\site-packages\sklearn\preprocessing\_label.py in fit_transform(self, y)
    113             Encoded labels.
    114         """
--> 115         y = column_or_1d(y, warn=True)
    116         self.classes_, y = _unique(y, return_inverse=True)
    117         return y

~\anaconda3\envs\ReturnRate\lib\site-packages\sklearn\utils\validation.py in column_or_1d(y, warn)
   1022         return np.ravel(y)
   1023 
-> 1024     raise ValueError(
   1025         "y should be a 1d array, got an array of shape {} instead.".format(shape)
   1026     )

ValueError: y should be a 1d array, …

Run Code Online (Sandbox Code Playgroud)

python machine-learning python-3.x scikit-learn

atp*_*atp

2021 12-06

6
推荐指数

1
解决办法

2489
查看次数

（InsufficientCapabilityException）：需要功能：[CAPABILITY_AUTO_EXPAND]

基于本地 AWS Cloud Formation.yaml文件。我正在运行以下命令

aws cloudformation create-stack --stack-name someTest --template-body file://template.yaml

Run Code Online (Sandbox Code Playgroud)

抛出以下错误

An error occurred (InsufficientCapabilitiesException) when calling the CreateStack operation: Requires capabilities : [CAPABILITY_AUTO_EXPAND]

Run Code Online (Sandbox Code Playgroud)

我在这里读到，这与模板包含macros. 在这种情况下，在.yaml文件内部，它调用AWS::Serverless::Function，即

Resources:
  ResourceName:
    Type: AWS::Serverless::Function 
    ...
    ...

Run Code Online (Sandbox Code Playgroud)

创建堆栈时有哪些选项可以解决此问题？

amazon-web-services aws-cloudformation

Mig*_*ejo

lucky-day

5
推荐指数

1
解决办法

3735
查看次数

AWS CDK：如何从 ECR 存储库上的现有 Docker 映像创建 Lambda 函数？

我已经在 ECR 上推送了一个 Docker 镜像。我还使用它通过 AWS 控制台从容器映像创建 lambda 函数，并且运行成功。

现在，我想通过 AWS CDK 创建该函数。

在__init__lambda stack 类的函数中，我添加了：

repo = aws_ecr.Repository.from_repository_name(scope, "Repository", repository_name="my-repo-name")
lambdaFn = aws_lambda.DockerImageFunction(
    self, "Test Function",
    code=aws_lambda.DockerImageCode.from_ecr(repo),
    timeout=core.Duration.seconds(600),
    memory_size=8192,
    environment=dict(PATH="/opt"),
    role = role
)

Run Code Online (Sandbox Code Playgroud)

我在从 ECR 上的现有存储库定义变量时遇到问题repo。

python aws-lambda aws-cdk

Yas*_*sen

2021 02-20

5
推荐指数

1
解决办法

6765
查看次数