一萬一千次失敗的告警
健康探針連續回報失敗,FailingStreak 數千次,監控面板整整四天一片紅。直覺反應是服務掛了,但那個服務從頭到尾都在正常處理請求——cron 跑得動,hook 觸發得了,對外 API 沒有任何異常回應。
健康探針連續回報失敗,FailingStreak 數千次,監控面板整整四天一片紅。直覺反應是服務掛了,但那個服務從頭到尾都在正常處理請求——cron 跑得動,hook 觸發得了,對外 API 沒有任何異常回應。
gateway 的 PID 活著,port 在 listen,健康檢查回 200。外面看什麼都正常。但所有實際請求都回 HTTP 000,hooks 完全沒有動靜。翻 log 才發現:框架每 30 秒重啟一次,已經累積超過 1000 次「starting…」。