トレンドマイクロ製品の安全性・透明性向上のための5つの取り組み 第2回~サービスの信頼性を確保するSRE (Site Reliability Engineering)の実践~
「当社製品の安全性・透明性向上」の取り組みを行うサイバーセキュリティ・イノベーション研究所の最前線のノウハウを連載形式でお伝えする連載企画。第2回はSRE (Site Reliability Engineering)です。
SRE(Site Reliability Engineering:サイト信頼性エンジニアリング )とはGoogleが提唱したシステム管理とサービス運用に対するアプローチです。一言でいえば、巨大化・複雑化するシステムのサービス運用をソフトウェアエンジニアリングの観点で改善してサービスの信頼性の確保とサービス成長のバランスをとるための方法論です。よくDevOpsとの違いが話題になりますが、「DevOpsは概念であり、SREはその概念を実現する方法論の1つ」と考えると分かりやすいかもしれません。
トレンドマイクロでも、サービスの信頼性向上のため、近年はグローバル全体でSaaS製品を主な対象として、SREを導入しています。2022年1月には正式に日本のSREチームが発足し、担当サービスを順次拡大しています。SREエンジニアはSaaS製品に対するサービスの可用性や信頼性向上、より安全なデータ管理のために日々改善活動を実施しています。
このブログでは当社がグローバル規模で設置しているSREチーム が担っている様々な役割の中から、2つをピックアップして紹介します。
当社のSREチームが行っている様々な役割のうち、「リングデプロイメントの導入」と「インシデント対応」について、本稿では紹介したいと思います。
SREの業務① インシデントの事前抑止:
障害など、意図せぬサービス停止を極力抑止するために様々な取り組みを行っています。そのうちの1つが、リングデプロイメント(Ring Deployment)の導入です。
リングデプロイメント とは、ソフトウェアリリースのリスクを管理するために、段階的なリリースを行うことです。リスク許容度の高いユーザ からリリースを初めて、徐々に他のユーザにも展開していきます。これにより、障害が発生した際の範囲が制限することができるようになります。
もちろん製品開発プロセスにおいて十分にテストを行った後にリリースしていますが、一般的にもソフトウェア開発においては、リリース前にバグを完全なくすことは難しいのが現状です。そのため、リスク許容度の高い海外のお客さまから先行し、日本のお客さまに対しては、現時点では比較的リリースを遅らせる体制としています。
「新機能よりも安定性を重視したい」という声が大きい日本のお客さまに合わせ、当社のSREでは日本で稼働するサービスのリリースタイミングを少し遅らせて、安定性を確認しながら慎重にリリースするようにしています。
SREの業務② 障害 からの早期復旧:
SREでは、サービスに対する異常を察知できるように、24時間365日のモニタリング体制がとられています。一般的なシステムモニタリングでは、CPU使用率、メモリ使用率、ネットワークトラフィックなどのリソース監視を行うことが多いですが、SREのモニタリングの閾値では、ユーザ影響ベースのSLI( Service Level Indicators:サービスレベル目標)を用います。
この閾値ではリソース状況を監視するのではなく、お客さまが製品を使う体験・シナリオ(製品にログインする、ポリシーを設定する、ログを確認する等)に基づいて、「ここが使えないと困る」というポイントに閾値を設定しています。万が一異常が確認された場合、アラートが警告され、トリアージの結果、必要に応じて対応・告知、最後に障害の振り返りを行っています。
また、先日は日本のSREチームで、重大影響を与える障害を想定した障害対応訓練(Googleの定義で言う”Drill”)も行われました。何らかの障害でSaaS製品の機能がお客さまにご提供できなくなった状況から、どのように一次対処や連絡、復旧までメドを立てるかを想定する訓練です。
当社では、SaaS製品の1つ「Trend Vision One」で重大なサービス障害が発生したケースを想定した訓練を設定し、障害発生・対応~お客さまに障害情報をお届けするまでの流れも想定した訓練を行いました。訓練用の題材には、外部の文献や情報なども参考に、想定される事態や対応フローをセットしました。 訓練の結果チーム間で連携して運用を行うイメージをもつことができ、想定していなかった課題も見つかりました。
SREでは、このような平時の障害対応訓練を通して、障害の早期復旧を目指し、安定稼働をささえるための活動を行っています。
上述した2つの役割以外 にも、CI/CDパイプラインの管理や、インフラストラクチャ基盤の管理・セットアップなど、サービスをささえる様々な役割をSREは担っています。
この記事では、トレンドマイクロのSREの取り組みについて、大きなものをピックアップして紹介いたしました。こちらの取り組み以外にも、トレンドマイクロでは安心安全な製品づくりのために、品質を高める様々な取り組みを行っています。その他の取り組みについては、下記の過去記事をご参照ください。
・第1回~製品開発の迅速性と安全性を両立するDevSecOps~
次回は「ソフトウェアの脆弱性のリスクを可視化するSBOMの取り組み」について紹介いたします。
<参考文献>
・SRE サイトリライアビリティエンジニアリング
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy 編、澤田 武男、関根 達夫、細川 一茂、矢吹 大輔 監訳、Sky株式会社 玉川 竜司 訳
・Software Design 2022年5月号 技術評論社
本シリーズの記事を読む:
第1回:製品開発の迅速性と安全性を両立するDevSecOps
第2回:サービスの信頼性を確保するSRE (Site Reliability Engineering)の実践
第3回:ソフトウェアの脆弱性のリスクを可視化するSBOM
第4回:トレンドマイクロ製品の脆弱性に関する品質向上の取り組み
第5回:地政学リスクを考慮したサービスの設計とは
サイバーセキュリティ・イノベーション研究所
トランスペアレンシー・センター
トレンドマイクロのサイバーセキュリティ・イノベーション研究所の中核センターの一つ。トレンドマイクロの製品・サービスの品質、安全性、透明性の向上に取り組む。また、その取り組みを顧客や一般に広く発信するほか、「ソフトウェア管理に向けたSBOMの導入に関する手引」を策定した経済産業省のタスクフォースにて、ソフトウェア分野のSBOM実証に協力するなど、国内におけるソフトウェアのセキュリティ向上に向けた社外活動も推進している。