我正在尝试使用Prometheus来监控我的 MySQL 数据库,但似乎找不到添加 SQL 查询的区域。例如,我想运行一个返回值的 SQL 查询,然后将该值添加到图表中/发送警报。有没有办法让 Prometheus 发送 SQL 查询并检索输出?
谢谢
我有一个 elasticsearch 实例,它从多个备份例程接收日志。我想从 Grafana 向 ES 查询这些日志,并设置一个面板来显示不同备份的最后时间。理想情况下,如果时间长于某个阈值,我还希望能够以颜色显示这一点。
基本上,这个想法是有一个显示屏,例如,如果某个备份在过去 24 小时内完成,则显示为绿色,如果尚未完成,则显示为红色。
我该如何在 Grafana 中使用 ES 作为数据源来执行此操作?
我查看了有关向 Spring 项目添加 Sentry 日志记录和监视的文档和一些 Github 示例。
有人有可以帮助我的示例或链接吗?
我对 Postgresql 相当陌生(来自 SQL Server)
我偶然发现了那个包裹,它看起来很有趣。
将其永久保留在生产服务器上是一个好的做法吗?
一方面,我想知道在生产中实际加载我的系统的是什么。另一方面,我不想通过监视来加载我的服务器......
我正在寻找有关延迟监控的帮助(flink 1.8.0)。
假设我有一个简单的流数据流,具有以下运算符:FlinkKafkaConsumer -> Map -> print。
如果我想测量数据流中记录处理的延迟,最好的机会是什么?我想获取处理源中接收到的输入的持续时间,直到接收器/完成接收器操作接收到输入为止。
我添加了我的代码: env.getConfig().setLatencyTrackingInterval(100);
然后,可以使用以下延迟指标:
但我不明白他们到底在测量什么?此外,据我所知,延迟平均值似乎与延迟无关。
我还尝试使用 codahale 指标来获取某些方法的持续时间,但这并不能帮助我获取在整个管道中处理的记录的延迟。
该解决方案与 LatencyMarker 相关吗?如果是,我如何在接收器操作中到达它以检索它?
谢谢,罗伊。
我正在为我们的内部项目构建一个监控堆栈。我希望他们能够设计自己的监控仪表板以在 Grafana 内部使用,所以我无法预测这些仪表板的名称。
我创建了一个名为 的文件夹grafana_dashboard,我将在其中指示他们将仪表板存储为 JSON 文件,并且我希望将该文件夹的所有内容传递到 Grafana 实例。
我尝试过很多变体:
resource "grafana_dashboard" "dashboards" {
for_each = fileset(path.module, "grafana_dashboard/*.json")
config_json = "${each.key}"
depends_on = [aiven_service.grafana]
}
Run Code Online (Sandbox Code Playgroud)
但不断收到此错误:
Error: invalid character 'g' looking for beginning of value
on ../modules/monitoring/grafana.tf line 139, in resource "grafana_dashboard" "dashboards":
139: resource "grafana_dashboard" "dashboards" {
Run Code Online (Sandbox Code Playgroud)
你们谁能看出我做错了什么吗?
这是我尝试传递的 .json 文件之一的示例:
{
"annotations": {
"list": [
{
"builtIn": 1,
"datasource": "-- Grafana --",
"enable": true,
"hide": true,
"iconColor": "rgba(0, 211, 255, 1)",
"name": "Annotations & Alerts",
"type": …Run Code Online (Sandbox Code Playgroud) 假设我在普罗米修斯中有两个指标,都是计数器:
requests_processed_totalrequests_failed_total他们都有一个匹配的service标签。例子:
requests_processed_total{service="news"} 1097
requests_processed_total{service="store"} 487
requests_failed_total{service="news"} 23
requests_failed_total{service="store"} 89
Run Code Online (Sandbox Code Playgroud)
如何查询requests_failed_total,但仅限于其服务request_processed_total > 1000。
我期待以下回复:
requests_failed_total{service="news"} 23
# Note that the "store" service is excluded
Run Code Online (Sandbox Code Playgroud) 我认为问题标题是不言自明的。我的问题是我想查看上次部署的时间和人员。想知道是否有办法通过AWS 管理控制台在任何地方找到此信息。
先感谢您!
阅读本文后,我尝试清理 Spark 3.0.1 中的指标。这是我的 servicemonitor.yml 文件:
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:
app: spark3
release: prometheus
name: spark3-servicemonitor
spec:
endpoints:
- interval: 5s
port: spark-ui
path: /metrics/prometheus
relabelings:
# Rename metrics
- sourceLabels: [__name__]
targetLabel: __name__
regex: 'metrics_spark_driver_.+_StreamingMetrics_([a-zA-Z_]{1,})_Value'
replacement: 'spark_driver_$1'
namespaceSelector:
matchNames:
- default
selector:
matchLabels:
spark-version: "3"
Run Code Online (Sandbox Code Playgroud)
我期望进行以下转换:metrics_spark_driver_whateverappid_StreamingMetrics_streaming_lastCompletedBatch_totalDelay_Value -> spark_driver_streaming_lastCompletedBatch_totalDelay 但是重新标记似乎不起作用。您能在这个问题上帮助我吗?
我有一个 6 节点(3 个主节点、3 个辅助节点)集群。我可以使用 INFO 从各个节点获取统计信息(例如 instantaneous_ops_per_second),并且可以使用 CLUSTER INFO 获取有关集群配置的一些信息。
有没有办法从 INFO 获取整个集群的统计信息?使用 -c 开关在集群模式下连接似乎不会改变输出,并且谷歌搜索没有显示任何似乎有用的东西(尽管我至少得到了很多关于一般要监视的东西的提示.. .)
我不想使用外部程序来组合统计数据,尽管这是一个明显的解决方案 - 我希望有一些内置于 redis 的东西可以让我查看,例如,每个命令的数量其次整个集群正在处理。
monitoring ×10
grafana ×3
prometheus ×3
logging ×2
apache-flink ×1
apache-spark ×1
aws-lambda ×1
exception ×1
kubernetes ×1
latency ×1
metrics ×1
mysql ×1
postgresql ×1
redis ×1
sentry ×1
spring ×1
sql ×1
terraform ×1