<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Runbooks on SafetyWing Runbooks</title><link>https://runbooks.safetywing.dev/runbooks/</link><description>Recent content in Runbooks on SafetyWing Runbooks</description><generator>Hugo</generator><language>en-us</language><atom:link href="https://runbooks.safetywing.dev/runbooks/index.xml" rel="self" type="application/rss+xml"/><item><title>Alert Catalog</title><link>https://runbooks.safetywing.dev/runbooks/catalog/</link><pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate><guid>https://runbooks.safetywing.dev/runbooks/catalog/</guid><description>&lt;h1 id="alert-catalog"&gt;Alert Catalog&lt;a class="anchor" href="#alert-catalog"&gt;#&lt;/a&gt;&lt;/h1&gt;
&lt;p&gt;Every alert evaluated across SafetyWing clusters — &lt;strong&gt;29 custom&lt;/strong&gt; (component / environment / platform tiers, owned by us) and &lt;strong&gt;133 stock&lt;/strong&gt; (kube-prometheus-stack defaults). Custom alerts link to the runbook on this site; stock alerts link to the upstream &lt;a href="https://runbooks.prometheus-operator.dev/"&gt;prometheus-operator runbooks&lt;/a&gt;.&lt;/p&gt;
&lt;blockquote class='book-hint '&gt;
&lt;p&gt;Generated from the live hetzner rule set + the infra-charts/cluster-monitors sources. Stock alerts are identical across clusters; custom alerts deploy per environment/cluster where the chart is enabled.&lt;/p&gt;
&lt;/blockquote&gt;&lt;h2 id="safetywing-custom-alerts"&gt;SafetyWing custom alerts&lt;a class="anchor" href="#safetywing-custom-alerts"&gt;#&lt;/a&gt;&lt;/h2&gt;
&lt;h3 id="kafka--component-tier"&gt;Kafka &lt;small&gt;(component tier)&lt;/small&gt;&lt;a class="anchor" href="#kafka--component-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaOfflinePartitions&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka/kafkaofflinepartitions/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaNoActiveController&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka/kafkanoactivecontroller/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaUnderReplicatedPartitions&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka/kafkaunderreplicatedpartitions/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaConsumerGroupLagHigh&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka/kafkaconsumergrouplaghigh/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="kafka-connect--component-tier"&gt;Kafka Connect &lt;small&gt;(component tier)&lt;/small&gt;&lt;a class="anchor" href="#kafka-connect--component-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaConnectFailedTasks&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka-connect/kafkaconnectfailedtasks/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaConnectWorkersDown&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka-connect/kafkaconnectworkersdown/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;KafkaConnectNoConnectors&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/kafka-connect/kafkaconnectnoconnectors/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="mysql--component-tier"&gt;MySQL &lt;small&gt;(component tier)&lt;/small&gt;&lt;a class="anchor" href="#mysql--component-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;MysqlInstanceDown&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/mysql/mysqlinstancedown/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;MysqlConnectionsSaturated&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/mysql/mysqlconnectionssaturated/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;MysqlReplicationLagHigh&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/mysql/mysqlreplicationlaghigh/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;MysqlDiskFillingUp&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/mysql/mysqldiskfillingup/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="rabbitmq--component-tier"&gt;RabbitMQ &lt;small&gt;(component tier)&lt;/small&gt;&lt;a class="anchor" href="#rabbitmq--component-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;RabbitmqNodeDown&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/rabbitmq/rabbitmqnodedown/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;RabbitmqMemoryAlarm&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/rabbitmq/rabbitmqmemoryalarm/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;RabbitmqDiskAlarm&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/rabbitmq/rabbitmqdiskalarm/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;RabbitmqQueueBacklog&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/rabbitmq/rabbitmqqueuebacklog/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;RabbitmqQueueNoConsumers&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/rabbitmq/rabbitmqqueuenoconsumers/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="ceph--platform-tier"&gt;Ceph &lt;small&gt;(platform tier)&lt;/small&gt;&lt;a class="anchor" href="#ceph--platform-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;CephHealthError&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/ceph/cephhealtherror/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CephMonOutOfQuorum&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/ceph/cephmonoutofquorum/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CephHealthWarning&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/ceph/cephhealthwarning/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CephOSDDown&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/ceph/cephosddown/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;CephClusterNearFull&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/ceph/cephclusternearfull/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="elasticsearch--platform-tier"&gt;Elasticsearch &lt;small&gt;(platform tier)&lt;/small&gt;&lt;a class="anchor" href="#elasticsearch--platform-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;ElasticsearchClusterRed&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/elasticsearch/elasticsearchclusterred/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;ElasticsearchClusterYellow&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/elasticsearch/elasticsearchclusteryellow/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;ElasticsearchHeapHigh&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/elasticsearch/elasticsearchheaphigh/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;ElasticsearchDiskWatermark&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/elasticsearch/elasticsearchdiskwatermark/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="node--platform-tier"&gt;Node &lt;small&gt;(platform tier)&lt;/small&gt;&lt;a class="anchor" href="#node--platform-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;NodeFilesystemAlmostFull&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/node/nodefilesystemalmostfull/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="traefik--platform-tier"&gt;Traefik &lt;small&gt;(platform tier)&lt;/small&gt;&lt;a class="anchor" href="#traefik--platform-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;TraefikDown&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;page&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/traefik/traefikdown/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;TraefikHigh5xxRate&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/traefik/traefikhigh5xxrate/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="environment--environment-tier"&gt;Environment &lt;small&gt;(environment tier)&lt;/small&gt;&lt;a class="anchor" href="#environment--environment-tier"&gt;#&lt;/a&gt;&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;Alert&lt;/th&gt;
 &lt;th&gt;Severity&lt;/th&gt;
 &lt;th&gt;Runbook&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;EnvironmentHigh5xxRate&lt;/td&gt;
 &lt;td&gt;&lt;code&gt;ticket&lt;/code&gt;&lt;/td&gt;
 &lt;td&gt;&lt;a href="https://runbooks.safetywing.dev/runbooks/environment/environmenthigh5xxrate/"&gt;runbook&lt;/a&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="stock-alerts-kube-prometheus-stack"&gt;Stock alerts (kube-prometheus-stack)&lt;a class="anchor" href="#stock-alerts-kube-prometheus-stack"&gt;#&lt;/a&gt;&lt;/h2&gt;
&lt;p&gt;Shipped by the kube-prometheus-stack &lt;code&gt;defaultRules&lt;/code&gt;. Documented upstream — links go there.&lt;/p&gt;</description></item></channel></rss>