小编Mig*_*ejo的帖子

Transformers v4.x:将慢速分词器转换为快速分词器

我正在关注变压器的预训练模型xlm-roberta-large-xnli示例

from transformers import pipeline
classifier = pipeline("zero-shot-classification",
                      model="joeddav/xlm-roberta-large-xnli")
Run Code Online (Sandbox Code Playgroud)

我收到以下错误

ValueError: Couldn't instantiate the backend tokenizer from one of: (1) a `tokenizers` library serialization file, (2) a slow tokenizer instance to convert or (3) an equivalent slow tokenizer class to instantiate and convert. You need to have sentencepiece installed to convert a slow tokenizer to a fast one.
Run Code Online (Sandbox Code Playgroud)

我用的是变形金刚版 '4.1.1'

python nlp huggingface-transformers huggingface-tokenizers

9
推荐指数
3
解决办法
4379
查看次数

如何计算整个 pandas 数据集的成对互信息?

我的数据框中有 50 个变量。46 个是因变量,4 个是自变量(降水量、温度、露水、雪)。我想计算因变量相对于自变量的互信息。

所以最后我想要一个像这样的数据框在此输入图像描述

现在我正在使用以下方法计算它,但它花了很长时间,因为我每次都必须更改我的y

X = df[['Temperature', 'Precipitation','Dew','Snow']] # Features
y = df[['N0037']] #target 

from sklearn.feature_selection import mutual_info_regression
mi = mutual_info_regression(X, y)
mi /= np.max(mi)

mi = pd.Series(mi)
mi.index = X.columns
mi.sort_values(ascending=False)
mi
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas scikit-learn mutual-information

8
推荐指数
1
解决办法
3929
查看次数

如何将不返回数值的函数应用于熊猫滚动窗口?

我有一个日期时间系列的 dtype:float64。我正在尝试将自定义函数应用于该系列的滚动窗口。我希望这个函数返回字符串。但是,这会生成 TypeError。为什么这会产生错误,有没有办法直接通过应用一个函数来使这个工作?

下面是一个例子:

import numpy as np
import pandas as pd

np.random.seed(1)
number_series = pd.Series(np.random.randint(low=1,high=100,size=100),index=[pd.date_range(start='2000-01-01',freq='W',periods=100)])
number_series = number_series.apply(lambda x: float(x))

def func(s):
    
    if s[-1] > s[-2] > s[-3]:
        return 'High'
    elif s[-1] > s[-2]:
        return 'Medium'
    else:
        return 'Low'

new_series = number_series.rolling(5).apply(func)
Run Code Online (Sandbox Code Playgroud)

结果是以下错误:

TypeError: must be real number, not str
Run Code Online (Sandbox Code Playgroud)

我目前采用的解决方法是修改 func 以将整数输出到一个系列,然后将另一个函数应用于该系列以生成新系列。按照下面的例子:

def func_float(s):
    
    if s[-1] > s[-2] > s[-3]:
        return 1
    elif s[-1] > s[-2]:
        return 2
    else:
        return 3
    
float_series = number_series.rolling(5).apply(func_float)

def func_text(s):

    if s …
Run Code Online (Sandbox Code Playgroud)

python series apply pandas rolling-computation

8
推荐指数
2
解决办法
166
查看次数

使用语义版本控制或 Lerna Publish 从 CI/CD 部署时如何确保 Master 和 Dev 分支保持同步

设置

我有几个 gitlab 存储库,其中一般设置涉及一个master分支、一个stage(预发布)分支和一个dev分支。

所有 3 个分支的推送权限均被禁用。

工作流程是从dev分支中派生任何修补程序、错误修复和功能。当您对发布感到满意时,您将向 提交合并请求dev。最终,当内部准备好稳定的构建时dev;将为该分支提交合并请求stage。最后,当您对预发布感到满意时,您将提交分支的合并请求master

我配置了 CI/CD,以便通过自动生成文件从master和分支自动执行测试、构建和部署。分支部署到 UAT s3 Bucket 并部署到生产 s3 Bucket。stageCHANGELOG.mdstagemaster

部署是通过Semantic Versioning 2.0.0它来处理的,它负责更新版本、生成变更日志和部署。

我有一个与上面描述的类似的设置,除了它是一个 monorepo,所以我用来Lerna处理发布(部署)和{"conventionalCommits": true}复制Semantic Versioning 2.0.0的行为。我在 monorepo 中使用独立版本控制。

和 的Semantic Versioning 2.0.0设置都Lerna强制master分支始终位于 和 分支之后或等于stagedev分支;并且stage分支始终位于分支后面或等于dev分支,就像级联效应一样。

dev>= stage …

semantic-versioning gitlab gitlab-ci lerna conventional-commits

7
推荐指数
1
解决办法
1668
查看次数

Seaborn:ValueError:调色板='jet'否

使用参数从seaborn文档运行以下示例palette='jet'

import seaborn as sns
tips = sns.load_dataset("tips")
ax = sns.boxplot(x="day", y="total_bill", hue="smoker", data=tips, palette='jet')
Run Code Online (Sandbox Code Playgroud)

出现以下错误

    172         elif palette.lower() == "jet":
    173             # Paternalism
--> 174             raise ValueError("No.")
    175 
    176         elif palette.startswith("ch:"):

ValueError: No.
Run Code Online (Sandbox Code Playgroud)

jet调色板出现此错误的原因是什么?我想知道错误消息是否可以更具体,因为 matplotlib文档指出以下内容

常用的 jet 颜色图包含在这组颜色图中。我们可以看到整个颜色图中的值差异很大,这使得它不适合代表观看者感知的数据。

python matplotlib seaborn colormap

7
推荐指数
1
解决办法
2555
查看次数

Lambda 无权访问 ECR 映像

随着最近发布的Lambda功能Docker 映像,我决定使用CloudFormation.

因此,下面的 lambda 考虑了存储在 中的 docker 图像Elastic Container Registry,并有权按照文档中的示例访问该图像。

AWSTemplateFormatVersion: '2010-09-09'
Transform: AWS::Serverless-2016-10-31
Description: lambda-docker-image

Globals:
  Function:
    Timeout: 180

Resources:
  DockerAsImage:
    Type: AWS::Serverless::Function 
    Properties:
      FunctionName: DockerAsImage
      ImageUri: ??????????????.dkr.ecr.us-west-2.amazonaws.com/????:latest
      PackageType: Image
      Policies: 
        - Version: '2012-10-17' 
          Statement:
            - Effect: Allow
              Action: 
                - ecr:*
                - ecr-public:*
                - sts:GetServiceBearerToken
              Resource: "*"
      Events:
        HelloWorld:
          Type: Api
          Properties:
            Path: /hello
            Method: post
Run Code Online (Sandbox Code Playgroud)

我使用的是sam部署在模板us-west-2

sam deploy -t template.yaml --capabilities "CAPABILITY_NAMED_IAM" --region "us-west-2" --stack-name "lambda-docker-example" …
Run Code Online (Sandbox Code Playgroud)

amazon-web-services amazon-ecs aws-cloudformation aws-lambda aws-sam-cli

6
推荐指数
3
解决办法
3314
查看次数

如何将预定义的 json 环境变量传递给 gitlab 作业?

我不知道如何将 json 文件中的一些环境变量传递给 Gitlab CI,特别是我在 cypress.io 中使用的环境变量。

Gitlab CI 当然有一个部分,您可以在其中以变量或文件的形式指定环境变量。

在此输入图像描述

然而,Gitlab CI 抱怨“变量键只能包含字母、数字和‘_’”。

所以,我思考过的事情:

  1. 使用 覆盖 cypress 使用的 env 文件,--env然后指定一个文件,例如
# cypress-env
{
  "username": "xxxx",
  "password": "xxxx"
}
Run Code Online (Sandbox Code Playgroud)
  1. 创建此答案中指定的文件/sf/answers/3890681511/

  2. 要求 Cypress.io 团队提供一个有关如何执行此操作的示例(他们优秀的文档没有类似的示例)。

  3. 研究更多有关在 Gitlab CI 中指定文件变量的信息。Gitlab 产生的错误有些奇怪。为什么他们不允许文件变量中出现点?我一定做错了什么。

gitlab gitlab-ci cypress

6
推荐指数
1
解决办法
1万
查看次数

Sklearn Transformers:如何将编码器应用于多个列并在生产中重用它?

我在训练期间使用标签编码器,并希望通过保存并稍后加载来在生产中使用相同的编码器。无论我在网上找到什么解决方案,都只允许标签编码器一次应用于单个列,如下所示:

for col in col_list:
    df[col]= df[[col]].apply(LabelEncoder().fit_transform)
Run Code Online (Sandbox Code Playgroud)

这种情况下如何保存并以后使用呢?因为我尝试拟合整个数据框,但出现以下错误。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
C:\Users\DA~1\AppData\Local\Temp/ipykernel_3884/730613134.py in <module>
----> 1 l_enc.fit_transform(df_join[le_col].astype(str))

~\anaconda3\envs\ReturnRate\lib\site-packages\sklearn\preprocessing\_label.py in fit_transform(self, y)
    113             Encoded labels.
    114         """
--> 115         y = column_or_1d(y, warn=True)
    116         self.classes_, y = _unique(y, return_inverse=True)
    117         return y

~\anaconda3\envs\ReturnRate\lib\site-packages\sklearn\utils\validation.py in column_or_1d(y, warn)
   1022         return np.ravel(y)
   1023 
-> 1024     raise ValueError(
   1025         "y should be a 1d array, got an array of shape {} instead.".format(shape)
   1026     )

ValueError: y should be a 1d array, …
Run Code Online (Sandbox Code Playgroud)

python machine-learning python-3.x scikit-learn

6
推荐指数
1
解决办法
2489
查看次数

(InsufficientCapabilityException):需要功能:[CAPABILITY_AUTO_EXPAND]

基于本地 AWS Cloud Formation.yaml文件。我正在运行以下命令

aws cloudformation create-stack --stack-name someTest --template-body file://template.yaml
Run Code Online (Sandbox Code Playgroud)

抛出以下错误

An error occurred (InsufficientCapabilitiesException) when calling the CreateStack operation: Requires capabilities : [CAPABILITY_AUTO_EXPAND]
Run Code Online (Sandbox Code Playgroud)

我在这里读到,这与模板包含macros. 在这种情况下,在.yaml文件内部,它调用AWS::Serverless::Function,即

Resources:
  ResourceName:
    Type: AWS::Serverless::Function 
    ...
    ...
Run Code Online (Sandbox Code Playgroud)

创建堆栈时有哪些选项可以解决此问题?

amazon-web-services aws-cloudformation

5
推荐指数
1
解决办法
3735
查看次数

AWS CDK:如何从 ECR 存储库上的现有 Docker 映像创建 Lambda 函数?

我已经在 ECR 上推送了一个 Docker 镜像。我还使用它通过 AWS 控制台从容器映像创建 lambda 函数,并且运行成功。

现在,我想通过 AWS CDK 创建该函数。

__init__lambda stack 类的函数中,我添加了:

repo = aws_ecr.Repository.from_repository_name(scope, "Repository", repository_name="my-repo-name")
lambdaFn = aws_lambda.DockerImageFunction(
    self, "Test Function",
    code=aws_lambda.DockerImageCode.from_ecr(repo),
    timeout=core.Duration.seconds(600),
    memory_size=8192,
    environment=dict(PATH="/opt"),
    role = role
)
Run Code Online (Sandbox Code Playgroud)

我在从 ECR 上的现有存储库定义变量时遇到问题repo

python aws-lambda aws-cdk

5
推荐指数
1
解决办法
6765
查看次数