我想使用监控命名空间中已有的 Prometheus 和 Grafana 实例来模拟seldon-core-analytics正在执行的操作。我正在使用 prometheus 社区 helm Charts 并安装kube-prometheus-stack 在 k8s 上。这是我到目前为止所做的:
在该values.yaml文件中,在 prometheus 配置下,我添加了以下注释:
annotations:
prometheus.io/scrape: "true"
prometheus.io/path: "/prometheus
Run Code Online (Sandbox Code Playgroud)
接下来,我查看了prometheus-config.yaml他们的 Github 存储库,并将配置复制并粘贴到 configmap 文件中。
另外,创建了一个 ServiceMonitor
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
name: seldon-servicemonitor-default
labels:
seldon-monitor: seldon-default
namespace: monitoring
spec:
selector:
matchLabels:
app.kubernetes.io/managed-by: seldon-core
endpoints:
- interval: 15s
path: /metrics
port: http
- interval: 15s
path: /prometheus
port: http
namespaceSelector:
matchNames:
- seldon
- default
- monitoring
Run Code Online (Sandbox Code Playgroud)
到目前为止,上述步骤没有错误,但普罗米修斯实例似乎无法从我部署在不同命名空间上的模型中获取指标。我还需要执行哪些其他配置,以便我自己的 Prometheus 和 Grafana 实例可以从我很少部署的模型中收集和可视化指标?该文档并没有真正解释如何在您自己的实例上执行此操作,并且他们通过其向您提供的实例 …
我正在尝试按照 Seldon 的说明在 minikube 上构建和部署 iris 模型。 https://docs.seldon.io/projects/seldon-core/en/latest/workflow/github-readme.html#getting-started 我可以使用 YAML 文件使用 Helm 和 Knative 安装 Seldon。但是,当我尝试应用此 YAML 文件来部署 Iris 模型时,出现以下错误:
Internal error occurred: failed calling webhook "v1.vseldondeployment.kb.io": Post "https://seldon-webhook-service.seldon-system.svc:443/validate-machinelearning-seldon-io-v1-seldondeployment?timeout=30s": dial tcp 10.107.97.236:443: connect: connection refused
Run Code Online (Sandbox Code Playgroud)
我在其他文件(例如 knative 和代理安装)上使用 kubectl apply YAML,他们没有这个问题,但是当我 kubectl 应用任何 SeldonDeployment YAML 文件时,会出现此错误,我还尝试了 cifar10.yaml 进行 cifar10 模型部署和 mnist- model.yaml 用于 mnist 模型部署,他们也有同样的问题。
有没有人遇到过类似的问题,排除故障和解决问题的最佳方法是什么?
我的 Seldon 是 1.8.0-dev,minikube 是 v1.19.0,kubectl Server 是 v1.20.2 以下是 YAML 文件:
kind: SeldonDeployment
metadata:
name: iris-model
namespace: seldon
spec:
name: iris
predictors:
- …Run Code Online (Sandbox Code Playgroud)