O11y-SRE 分科会 Meetup#6 開催!「SRE 怖くない ~ みんなで踏み出そう!SRE への第一歩 ~」
みなさん、こんにちは、O11y-SRE分科会です!
2024 年 2 月 26 日に「SRE 怖くない ~ みんなで踏み出そう!SRE への第一歩 ~」を開催しました。
O11y-SRE 分科会としては通算第 6 回目の Meetup ではあるのですが、今年は新たな体制で本分科会を運営することから「Reboot」を大きなテーマとして盛り上げていきたいと思っています。
そんな通算第 6 回目/Reboot 第 1 回目である本 Meetup は上記のテーマで「こういった取り組みに興味がある!」「取り組み始めた!」という SRE に踏み出したい分科会会員様向けに届けたいものとなっています。
目次
LT1. Node-AI開発チームのSREの歩みと今後の課題(とTry)
LT3. Google Cloud Managed Service for PrometheusでPrismaメトリクスを可視化してみた
今回からの運営メンバーであり新たにオーナーとなったメンバーの紹介です!
- Datadog Japan 合同会社 木村
- 株式会社スリーシェイク 横尾
- NTTコミュニケーションズ株式会社 林
- グーグル・クラウド・ジャパン合同会社 中屋
オンラインで開催して多くの分科会会員様に参加いただき、アットホームな空気感で Meetup を開催できました!
ここでは各 LT の振り返りを記載していますので、ぜひご覧ください!
(NTTコミュニケーションズ株式会社 / 林 知範)
LT1. Node-AI開発チームのSREの歩みと今後の課題(とTry)
LT 1 本目を飾ったのは、NTT コミュニケーションズ株式会社 の半澤さんです!
自社サービスである Node-AI というプロダクトのアプリケーションエンジニアの視点から考える SRE 的課題の発見と対応についてお話いただきました。
どうしてもユーザーに直接見える部分ではないため、チームとしての優先課題としてなかなか上げづらいという声があるそうです。
そこで、SRE 的な活動を有志で行うという、取り組みを実施し、出来ることから小さく始めた活動を組織全体に広げていこうという営みを行っているそうです。
(この部分はなかなかできることではないので、見習っていきたいですね!)
まさに、開発者視点から小さく SRE(的な活動)を始める素晴らしい事例のLTをありがとうございました!
(株式会社スリーシェイク / 横尾 杏之介)
LT2. 客先に常駐した経験から考える O11Y/SRE
LT 2 本目は、株式会社イーツの平田さんから、客先常駐経験から考えるという、面白い観点でのLTです。
いきなり、Gemini さんに O11y, SRE, O11y と SRE の関係性について定義を確認された上でざっくりとまとめていただきました。
監視と運用を「ちゃんと」やればいいとのことです。
そして、「ちゃんと」した監視とはどういうことかまとめていただきました。
何が正常であるのか、正常である状態を正確に、分かりやすく把握するために探求を進めた先にO11y/SRE ぽくなるというのは素晴らしい観点ですね!
「本当にクリティカルなものだけを残す」
それな!無駄なアラートの対応がかさむのは客先常駐あるあるすぎて涙が止まりません。
どこまで枕を高くして寝られるかを考えた先に SRE があると!
まだまだ SRE になれていないシステム管理者として目から鱗でした。
私も客先常駐で疲弊した経験があるので、監視を「ちゃんと」やって SRE と O11y を進めていきたいです。
素晴らしい LT ありがとうございました。
(CTC システムマネジメント株式会社 / 古林 信吾)
LT3. Google Cloud Managed Service for PrometheusでPrismaメトリクスを可視化してみた
3つ目の LT は 3-Shake の岩崎さんから Google Cloud の Managed Service for Prometheus と Prisma に関するやってみた系 LT でした。
今回が初めての社外登壇ということでしたが、資料もお話も丁寧でとても勉強になる内容でした!
まず初めに、GKE から GMP へのメトリクスの収集方法の説明です。何が起こっているか意識しづらいマネージドコレクションで起こっていることを含め、図を用いてわかりやすく解説されています!
それぞれ収集時に必要なyaml設定が書かれているので、設定のポイントも明確でした。
続いて今回のメトリクス収集対象の Prisma の説明です。『TypeScript用の次世代のORマッパー』で登壇時点でも勢いのある技術のようです。
Prisma は現時点でプレビューですが、収集可能なメトリクスが存在しており、これを Prometheus を用いて収集するのが今回の内容です。
今回はマネージドコレクションを利用してメトリクスの収集をされていました!
クラスター単位で GMP を有効化し、PodMonitoring リソース設定を適用します。この上で Prisma メトリクスを /metrics に公開し、Prometheus(GMP) によって収集が実現できるようです。
今回は、この設定に加えて意図的に PostgreSQL に接続をしスリープすることでコネクション数メトリクスの増減をお見せいただきました!
GMP を活用することで、必要な情報をメトリクスとして簡単に収集でき障害調査にも利用できそうというのが今回のやってみた内容の趣旨のようです。ログより軽量なメトリクスを積極的に収集する、まさに O11y の実現への第一歩な内容でした!
実際に手を動かしてやってみた知見は何よりも貴重です。是非今後もJagu’e’rをはじめとする様々な場所でアプトプットを続けていただけると嬉しいです!
素敵な LT をありがとうございました!
(Datadog Japan 合同会社 / 木村 健人)
LT4. Cloud Buildで初めてのCI/CD構築
このMeetup最後を飾るLTはクラウドエース株式会社の高橋さんからCloud Buildを利用したCI/CD構築のお話でした。
高橋さんも今回が初めての社外登壇ということでしたが、内容が丁寧にまとめられていてとても理解しやすい内容となっていました!
まずCI/CDの定義の説明です。
この辺りは意外とパッと出てこない部分だったりするのではじめに説明してもらえるのはありがたいですね…!
続いて実際のCI/CD環境構築の説明です。
今回の目標は「システムのインフラ部分をCI/CDする」とのことです。
以下のような手順で環境構築を行ったとのことです。手順もきれいにまとめられており非常にわかりやすい内容となっていました。
- 今回の対象となるGitHubリポジトリの作成
- Google CloudにCI/CDプロジェクトを作成
- GitHub と CI/CD プロジェクトの Cloud Build を接続(Cloud Build トリガーを作成)
- 各トリガー(Pull Request、Merge、Push Tag)の動作をコード化する
個人的に共感したポイントが2点ありました!
1点目としてはCloud Buildトリガーの作成部分で「トリガーの名前は、動作が具体的にわかるものにすると幸せになれる」という知見です。
プログラムとかを書いているといつも命名には悩まされるのですが、名前を見てそれがどんなものなのかが具体的にわかる名前を命名するっていうのはめちゃめちゃ大事だなぁと思います!
※それで名前が長くなったりして逆に分かりにくくなったりすることもありますが…
2点目は、Cloud Buildサービスアカウントに必要最低限な権限のみ付与するために、トライ アンド エラーで権限付与の調整をしたということです。
これは自分もよく体験する内容で、権限エラーではじかれまくってへこむ…っていうのはあるあるなんじゃないかなぁと思います!
最後に高橋さんはやってみた感想として
- 思ったよりもハードルが低い
- 自動化に辿り着くまでにめっちゃ手を動かす
- トライ アンド エラーで成長
- とりあえずやってみるが一番勉強になる
といった内容を上げられていました!
特に最後の「とりあえずやってみる」というのはエンジニアとして一番大事な部分だと思うので、是非手を動かしていただき知見を様々な場所でアウトプットしていっていただければと思います!
素敵な LT をありがとうございました!O11y-SRE分科会メンバーとして今後も一緒にSRE活動頑張っていきましょう!!
(NTTコミュニケーションズ株式会社 / 半澤 友行)
クロージング
以上で、Meetup#6 終了となります!
「Reboot」をテーマにした第 1 回目の Meetup で運営メンバーとして緊張した面もありましたが、ワイガヤスレッドも盛り上がり大盛況なものとなりました。
また、Meetup#7 もすでに準備しており、O11y-SRE 分科会で初のハイブリッド開催を予定しています。参加者は随時募集していますのでこちらの Connpass から申し込みお願いします!!
では、次回の Meetup#7 でお会いしましょう!!
(NTTコミュニケーションズ / 林 知範)