障害対策に関する良記事を読んだのでご紹介します。
個人事業主としてお世話になっているfreeeのSRE(Site Reliability Engineer)の方のお話しです。
障害対策って、みんなで力出しあう…Scrumでいうスウォーミング状態が生まれやすい(ってか生まないと帰れない…)ですが、そのための場所を「ブリッジ」と名付けて常設しているのは、なかなか良いかと思います。
ただ「SOC1を取らねば」ではなくて、障害はゼロにはできないという事実を受け止め、小さなことから自動化を重ねていく姿勢が素晴らしいです。
「失敗.js」で失敗をポジティブに全員がノウハウとして共有したり、「割れ窓の改善」といった技術的負債対応…Scrumに通じる活動も良いと思います。
大事ですね。自分の仕事でも忘れないようにしたいです。