O11y-SRE 分科会 Meetup#9 開催!「Next Tokyo ’24 を勝手に Recap & 初めましての LT 会」
冒頭挨拶
まずは、オーガナイザーとして本分科会を盛り上げていくメンバーの紹介です!
- Datadog Japan 合同会社 木村
- 株式会社スリーシェイク 横尾
- NTTコミュニケーションズ株式会社 林
- グーグル・クラウド・ジャパン合同会社 中谷
コアメンバー4名が中心となって、盛り上げていくので引き続きよろしくお願いします!!
さて、本編ですが、2024/08/09 に Meetup#9 を開催しました!
今回は Google Cloud Next Tokyo’24 を勝手にRecap会ということで、分科会オーガナイザーによる独断と偏見で、Nextで発表したセッションをRecapしていきます & 分科会初登壇となる方々からの初めてLT の2パートでお送りします!
(株式会社スリーシェイク / 横尾 杏之介)
Recap LT1
Recap LTの1人目は、みなさんお馴染みJagu’e’rの各分科会で大活躍されている Datadog Japan の木村さんにご登壇いただきました!
まずは、「Platform Engineeringとは?」ということで、すでにご存知の方もそうでない方にも向けて、公式docを引用する形でご紹介がありました。
Platform Engineeringに関してよく耳にする言葉として、「ゴールデンパス」があります。
ゴールデンパスとは、「迅速なプロジェクト開発に役立つ巧みに統合されたコードと機能のテンプレート構成」と述べられています。
実践の方法としてはいろいろありますが、スライドに記載のようなことが挙げられます。
実践方法の1つとして、GKE Enterprise を使用したマルチテナント管理が挙げられます。
GKEの機能の1つである、フリートや kubernetesの特性を生かしたnamespace分割など、マルチテナントを管理するには、GKE Enterprise だ!ということが言われています。
IDEとして、Cloud Workstationsもありますとご紹介がありました。
Cloud Workstationsを利用することで、開発者に統一された標準の開発環境を構築の手間なく手軽に利用してもらうことができます。
最後にPlatform Engineeringの実践において重要なことをまとめていただきました。
大事なこととしては、「難しく考えずにまずは実践してみようよ」ということを言っていただきました!
木村さん、ご登壇ありがとうございました!
LT2
Recap LTの2人目の登壇者は、NTT コミュニケーションズの林さんから、AI/ML系のOpsにフォーカスした2セッションのRecapをしていただきました!
今回は、2つRecapいただいたうちの1つのセッションに焦点を当ててみていきます。
「LLM Ops」という聞き慣れない単語からスタートしたセッションですが、一言で言うと「LLM の回答結果をLLMが評価する」と言うことみたいです。
ポイントの1つ目に挙げられていたのは、LLM as a Judge ということで、MLOps と LLMOpsに違いを交えつつ、LLM独自のパラメーターに対して評価指針を用意してあげるということでした。
モデルの選定や、評価、プロンプトマネジメントなどLLM を扱う上での指標の構築・監視をどうGoogle Cloudで実現するのかが次に述べられています。
Cloud Workflowsを使用して、LLMに関するワークフローが簡単に組めますよということが述べられています。
プロンプトの生成から評価の実行、評価内容の保存まで、一元化されたワークフローで実現することで、集約されたデータや評価を実行することができます。
まとめとして、「生成AIを活用したアプリケーションの営みに評価は必須」ということが述べられています。
LLM に LLMの回答結果を評価させることで、より良い運用に繋がっていくと言うことが述べられていました!
林さん、ご登壇ありがとうございました!
LT3
Recap LTの3人目は僭越ながら、私、3-shakeの横尾が担当させていただきました。
私からは、「Google Cloud Next Tokyo’24 勝手にRecap コンテナ最新アップデート」と題して、主に、GKE, Cloud Runに対する最新アップデートをご紹介させていただきました。
資料と当日発表させていただいた内容は以下に記事として残してあるので、そちらをご参照いただければと思います。(ここでは割愛!)
Google Cloud Next Tokyo’24 勝手にRecap コンテナ最新アップデート紹介 ~ GKE 編 ~
Google Cloud Next Tokyo’24 勝手にRecap コンテナ最新アップデート紹介 ~ Cloud Run 編 ~
初めてLT1
初めてLTの1人目は、クラウドエース株式会社 の岸本さんにご登壇いただきました!
岸本さん、ご応募いただきありがとうございました🙌
岸本さんからは、初案件で起きた出来事をベースにお話いただきました。
負荷試験のために、立てたVMが数か月起動しっぱなしになっているという、インフラを管理する人からするとゾッとするような体験をされたそうです。
この事象にきちんと向き合い、関係者への説明責任と対策事項の認識合わせを実施し、失敗を繰り返さない、まさに SRE として素晴らしい姿勢を見せてくださいました。
発表の中にはありませんでしたが、きっと非難の無いポストモーテムが実施されたことでしょう!
忘れられない貴重な体験のお話をしていただきました。
「明日は我が身」と言うことで、気を引き締めてこの教訓を大切にしていきたいなと改めて感じさせる素敵な内容でした!
岸本さん、ご登壇ありがとうございました!
初めてLT2
初めてLTの2人目は、アイレット株式会社の檜垣さんにご登壇いただきました!
檜垣さんは、昨年のGoogle Cloud Partner Top Engineer にも選出されており、初めてLTという場が恐縮ですが、O11y-SRE分科会では初めてのご登壇となります!
アラートについて考えてみるとということで、まずは、障害時の対応についてアイレットの事例を交えてご紹介いただきました。
アラート疲れをはじめ、障害発生時には多くの対応に追われることとなります。またそれには、多くのステークホルダーとのコミュニケーションコストが発生します。
そこでまずは形から入ろうと言うことで、SRE チームという名前で、デリバリーを実際に行うTAMグループとのコミュニケーションを集約する形でチームを配置したところ、コミュニケーションが劇的に改善したとありました。
ときにはプラクティスに乗っ取り、まずは形から入ることも大切ですね。
他にも、アラート疲れや障害時の一次対応をモダン監視に合わせて、実現するために、、自動化に取り組まれている内容をご紹介いただきました。
AMS という独自の監視システムを用い、インシデントを集約したり、Snyk IaCにてコード管理されていない変更を検知したりと、SRE として実践すべきプラクティスを組織に合わせた形で落とし込み日星んしている事例もお話いただきました。
そして最後に、やはりここに辿り着くと言う感じで、SRE と DevOpsの違いに改めて立ち返ってみたそうです。
SRE について考えることは何度行っても良いですからね、自分たちの組織にあったSREの形を模索しながら実践することが組織の成熟や、プロダクトの成熟につながっていくと私も感じています。
檜垣さん、素敵な内容でご登壇いただきありがとうございました!
クロージング
今回は、Google Cloud Next Tokyo’24 の (勝手に)Recapと初めてLTの2パートでお送りしました🙌
次回のMeetupは記念すべき #10を11月中旬に予定しています。
自組織の SRE について再考する貴重な体験ができるかも…’なコンテンツを用意しているので、お楽しみにください!
次回の参加もぜひお待ちしております🥳
Comming Soon…🙌
(株式会社スリーシェイク / 横尾 杏之介)
(Datadog Japan 合同会社 / 木村 健人)
(NTT コミュニケーションズ株式会社 / 林 知範)