SRE
SLI/SLO/SLA
SLI
予め決めたユーザーの利用するサービスがユーザーが許容できる範囲で完了するまでの指標
(良いイベント数/全てのイベント数)*100=SLI
SLO
SLIで設定した値胃内で完了したサービス提供回数が全てのサービス提供回数のうち、 どのくらいの割合で提供できればいいかという目標値 [SLO常に関しし続ける]
シンプルさをたもつ
『絶対』は避ける
SLOは最小限に設定する
最初から完璧を目指すな
SLA
SLOが達成できなかった場合に、ユーザーに対して何らかの補償などを約束する法的な契約
巧妙に設計されたソフトウェアは99.9%(スリーナイン)
巧妙に設計された運用は99.99%(フォーナイン)
巧妙に設計されたビジネスは99.999%(ファイブナイン)
CUJ(critical user journal)
特定のユーザーが提供されるサービスを利用して目的を達成するために実行する特定の手順
ex) youtubeなど動画を再生するまでの時間
ポストモーテム
致命的エラーインシデント)の報告書
ポストモーテムに書き込む内容
インシデントの影響範囲
対応内容の詳細
根本原因
インシデントを発生させないようにするためのアクション
トイル
めんどくさいこと
手作業であること
繰り返されること
自動化できること
サービスの成長に対してスケールしない作業
設定手順
1.ビジネス状況を定義する
SLIを定義する
クリティカルユーザージャーニー(CUJ)を決定する
SLI項目を決定する
SLIの実装を決定する
SLOを決定する
SLO監視の実装方法例
SLAを決定する
DevOpsとSREの関係
DevOps
継続的な開発、デプロイ、運用をするための一つの組織論・開発運用方法
SRE
その運用方法をいかに合理的に実践するための方法論
クラウドネイティブアークテクチャ
やらなければいけない理由
グローバルなサービス競争激化への対応
サービスのライフサイクルが短くなりより短期間で新サービスの投入が必要になってきている
欧米におけるクラウド利用は日本より3~4年の遅れが指摘されている
スタートアップ企業のクラウド利用による大手企業との競争激化へ
自動化、AI利用の拡大に追従が必須となってきた
国内市場でのサービス提供スピード競争
クラウドシフトをIT戦略の一環として差別化を加速
リフト&シフトからCNA+マネージド利用を思考する企業の増加
IT技術者不足に加えクラウド経験者不足を補させないようにするためのアクショ自動化が必須に
セキュリティ面でも優位性を認識
CSPの責任共有モデルに夜データセンター周りの管理から開放される
シフトレフトをツールによって容易に導入可能
クラウドインフラや仮想化レイヤーの統合により、ログや設定内容をセキュリティにも自動化、AIを導入することが可能に
デプロイについて
ブルーグリーンデプロイメント
ある環境から一気にきりかえる
カナリアリリース
ある環境へ数%ずつ切り替えていく
イミュータブルインフラストラクチャ
計画停止がなしで提供できるようにするサーバー