1章
- 監視はロールではなくジョブ チーム全員でおこなう。勉強会などを開催し、知識を広める。
- 不安定なシステムに監視を追加するのではなく根本的な原因を改善する
- 監視ツールに依存しない、交換可能であるべき
- 現代では監視ツールの負荷が問題になることは少ない 開発初期から導入する
- チェックボックス監視という状態
表面上だけの監視
- メトリクスは記録しているがシステムダウンの理由がわからない
- 誤検知が多いのでアラートを無視する
- 監視の間隔が長い(60secを基本とし、高トラフィックのシステムほど間隔を短くする)
- 監視設定やエージェントインストールは自動化する
2章
監視するデータの種類
・メトリクス
カウンタ(ex,走行距離計、アクセス数など)
ゲージ(ex,速度計、CPU、メモリなど)
・ログ
非構造化ログ(Nginxの生ログなど)
構造化ログ(情報の抽出のため、殆どの場合構造化する)監視はまずユーザ目線から(ヘルスチェック、HTTPステータス、画面の表示要素など)
- 人件費より安い事がほとんどなので、自社で作らずSaaSを使う
- 監視するからには継続的に改善する
3章
- アラート対応の手順書を書く
- 閾値だけでなく標準偏差や移動平均を使う(突発的な上昇に対応できないから)
- アラートのチューニングを行う
- アラートを送る前に自動復旧を検討する
- オンコールの期間、対応疲れに留意する
https://response.pagerduty.com/