SRE

SLI/SLO/SLA

SLI

予め決めたユーザーの利用するサービスがユーザーが許容できる範囲で完了するまでの指標

  • (良いイベント数/全てのイベント数)*100=SLI

SLO

SLIで設定した値胃内で完了したサービス提供回数が全てのサービス提供回数のうち、 どのくらいの割合で提供できればいいかという目標値 [SLO常に関しし続ける]

  • シンプルさをたもつ

  • 『絶対』は避ける

  • SLOは最小限に設定する

  • 最初から完璧を目指すな

SLA

SLOが達成できなかった場合に、ユーザーに対して何らかの補償などを約束する法的な契約

  • 巧妙に設計されたソフトウェアは99.9%(スリーナイン)

  • 巧妙に設計された運用は99.99%(フォーナイン)

  • 巧妙に設計されたビジネスは99.999%(ファイブナイン)

CUJ(critical user journal)

特定のユーザーが提供されるサービスを利用して目的を達成するために実行する特定の手順

ex) youtubeなど動画を再生するまでの時間

ポストモーテム

  • 致命的エラーインシデント)の報告書

ポストモーテムに書き込む内容

  • インシデントの影響範囲

  • 対応内容の詳細

  • 根本原因

  • インシデントを発生させないようにするためのアクション

トイル

めんどくさいこと

  • 手作業であること

  • 繰り返されること

  • 自動化できること

  • サービスの成長に対してスケールしない作業

設定手順

1.ビジネス状況を定義する

  1. SLIを定義する

  2. クリティカルユーザージャーニー(CUJ)を決定する

  3. SLI項目を決定する

  4. SLIの実装を決定する

  5. SLOを決定する

  6. SLO監視の実装方法例

  7. SLAを決定する

DevOpsとSREの関係

DevOps

継続的な開発、デプロイ、運用をするための一つの組織論・開発運用方法

SRE

その運用方法をいかに合理的に実践するための方法論

クラウドネイティブアークテクチャ

やらなければいけない理由

  • グローバルなサービス競争激化への対応

    • サービスのライフサイクルが短くなりより短期間で新サービスの投入が必要になってきている

    • 欧米におけるクラウド利用は日本より3~4年の遅れが指摘されている

    • スタートアップ企業のクラウド利用による大手企業との競争激化へ

    • 自動化、AI利用の拡大に追従が必須となってきた

  • 国内市場でのサービス提供スピード競争

    • クラウドシフトをIT戦略の一環として差別化を加速

    • リフト&シフトからCNA+マネージド利用を思考する企業の増加

    • IT技術者不足に加えクラウド経験者不足を補させないようにするためのアクショ自動化が必須に

  • セキュリティ面でも優位性を認識

    • CSPの責任共有モデルに夜データセンター周りの管理から開放される

    • シフトレフトをツールによって容易に導入可能

    • クラウドインフラや仮想化レイヤーの統合により、ログや設定内容をセキュリティにも自動化、AIを導入することが可能に

デプロイについて

ブルーグリーンデプロイメント

ある環境から一気にきりかえる

カナリアリリース

ある環境へ数%ずつ切り替えていく

イミュータブルインフラストラクチャ

計画停止がなしで提供できるようにするサーバー