
十台機器,九台跑升級指令,幾秒內版本號更新,確認完收工。第十台一樣的指令、一樣的回傳訊息,進去確認,版本還是舊的。
健康探針連續回報失敗,FailingStreak 數千次,監控面板整整四天一片紅。直覺反應是服務掛了,但那個服務從頭到尾都在正常處理請求——cron 跑得動,hook 觸發得了,對外 API 沒有任何異常回應。

某次例行的服務節點重建之後,一套自動化串接的 API 開始持續回傳 401。第一反應是 token 過期——但這個 token 原本就沒有設 expiration。打開 payload 看,結構完整,欄位都在,沒有任何明顯異常。服務端卻直接拒在門外,連 decode 都不做。