AI/ML 分科会 Meetup #7「生成AIの評価方法」が開催!!
今回のブログはGemini Pro 1.5(新たな試み!)を使用して作成してみました。
Jagu’e’r AI/ML分科会では、AIや機械学習をテーマに、ビジネスとテクノロジーの両面から議論し、新しいイノベーションを追求しています。 今回は生成AIの品質評価をテーマにしました。 生成AIは様々な分野で活用され始めており、最近では会社独自の制度やノウハウを組み込んで独自の回答ができるLLMのサービスを展開しようとしている企業も多くなってきているかと思います。一方で、嘘をつかない(ハルシネーション)の防止が重要になりますが、その品質を適切に評価し、信頼性を確保することは、実用化に向けて重要な課題です。
今回のセッションでは、生成AIの品質評価に関する様々な視点からの発表がありました。 当日参加できなかった方も、このブログを通じて、最新の知見や議論に触れていただければ幸いです。
このセッションから得られる3つのポイント
・ 生成AIの品質評価における課題と具体的な評価手法
・ 最新の評価ツールとその活用事例
・ 今後、重要となるであろう「倫理性」の評価指標とその必要性
ぜひ、最後までお読みいただき、生成AIの可能性と課題について理解を深めていただければと思います。
(Gemini Pro 1.5 作)
LT:生成AIは色々と難しくね? 予告編
パネリスト: ウルシステムズ株式会社 高橋 正幸さん
高橋さんは、データコンサル案件の技術支援などを担当。最近は生成AI関連の話が多く、いくつかの案件に携わっているそうです。生成AIの実装の難しさについて、特に RAG(Retrieval-Augmented Generation) について熱く語っていただきました。
RAGはGoogle CloudのVertex AI Searchで比較的簡単に構築できるものの、実際に運用レベルまで持っていくとなると、様々なチューニングや工夫が必要とのこと。特に、人事関連の文書は、一般的な法律の観点だけでなく、社内規定、経営戦略等の独自の決めごと、暗黙的なコンテキストなど、複雑な要素が絡み合っており、単純なテキストマッチングでは適切な回答を得るのが難しいそうです。例えば、「蕎麦職人になりたいから会社の教育支援制度で良いものはありませんか?」という質問に対して、人間なら「会社の業務と無関係な蕎麦職人を目指す支援制度はないだろう」と常識的に判断できますが、生成AIは与えられたテキスト内の「蕎麦職人」「教育支援」といった情報を額面通り解釈してしまい、誤った情報を返してしまう可能性があります。
人間なら当然考慮するコンテキストをいかにAIに理解させるかがRAG実装のポイントだと語り、次回10月頃に公開予定のミートアップで具体的な方法について詳しく解説する予定だと述べて、ライトニングトークを締めくくりました。
(Gemini Pro 1.5 作)
セッションテーマ「生成AIの評価方法」
冒頭部分でも少し触れましたが、便利な生成AIでもサービスインを目指す際、噓をつかない、不適切な応対をしないといった品質の担保が必要になります。その品質評価について業界をリードする「株式会社Citadel AI」より、杉山さん、劉さんのお二方から説明をいただきました。
「株式会社Citadel AI」は、東京に拠点を置く、AIの信頼性向上に取り組むスタートアップ企業です。AIの自動耐性テストや自動モニタリングサービスを提供しています。専門家以外には理解しづらいAIの複雑な問題を、自動で検知・防御することで、誰もが安心してAIを使える社会を目指しています。特徴的なのは、CEOは元ポンタ社長や米国企業CEOを歴任した、国際的なビジネス経験豊富な小林氏、CTOは元GoogleでTensorFlow開発チームを率いた、世界トップレベルのAIエンジニアであるKenny氏が率いる、国際色豊かなチームであることです。
(Gemini Pro 1.5の「グラウンディング」機能で作成)
セッション1:LLM時代の到来!でも、その回答、本当に大丈夫?
パネリスト: 株式会社Citadel AI 杉山 阿聖さん
続いてCitadel AI社で機械学習・AI等の開発に従事されている生粋のデュエリストソフトウェアエンジニアである杉山 阿聖さん。
今回は生成AIの評価方法デッキから
- QA4AIガイドラインにおける事前評価
- デジタル庁の生成AIの業務利用についてのレポート
- 過去ログを用いた業務評価
のカードを場にふせてターン開始。
(ネタ元が分からない方はごめんなさい🙇)
評価方法 その1:QA4AIガイドライン(手法)を参考にしてみよう
QA4AIとは、AIプロダクトの品質保証に関する調査や体系化などの活動を行う団体で、AIの品質保証に関するガイドラインを提供しています。この団体が2024年4月に公開した「AIプロダクト品質保証ガイドライン 2024.04版」では、大規模言語モデルの品質特性を定義づけています。QA4AIが定義する主な品質特性として、以下5つがあるそうです。
- 回答性能
- 事実性・真実性
- 倫理性・アラインメント
- 頑健性
- AIセキュリティ
これらの特性を評価するためのベンチマークも紹介されており、企業はこれを参考に品質特性を点数で表現することができるようになり、非常に分かりやすい評価を作成できるようになります。
しかし、一方で、ベンチマークは正解/不正解といった基準で得点をつけて評価するため、課題として「倫理観」のような得点をつけることがの難しい、曖昧な要素を測定するのが難しい点が挙げられます。
また、評価したい特性に合ったベンチマークが必ずしも存在するとは限らない点も挙げられます。使用する上では評価したい特性を事前に明確に定義することが重要だそうです。
評価方法 その2:デジタル庁のレポートを参考にしてみよう
デジタル庁が2023年7月に公開したレポートでは、生成AIを想定業務に適用した場合の評価方法とその手順が示されています。主に評価方法を確立するための「調査」を行った、という内容で要点は以下3つだそうです。
1. 想定業務と評価データセット
業務内容を明確化し、ヒアリングによって必要なアウトプットを特定した上で、10件の評価データセットを用いて評価を行っています。具体的には、アンケート調査を活用し、ユーザーが生成AIをどの程度便利に使えるのかを調査しています。
2. レポートから得られた10個の学び
生成AIの評価に関する10個の学びが得られています。例えば、品質向上や時間削減といった一般的な目標だけでなく、初心者にとって分かりやすく使いやすい状態であることや、説明責任を果たせるように透明性を確保することの重要性が示されています。
3. 調査結果の限界
調査方法が事前のヒアリングに依存しているため「行政特有の特殊な検索における類語の定義・提案機能」のように、事前に評価観点が定義できない業務の評価が難しい点など、限界も指摘されています。
評価方法 その3:実際の使用ログからボトムアップで評価
過去のチャットボット開発における杉山さんの経験則から、チャットボットへの質問と回答のログを分析するボトムアップ型の評価方法が良いのでは、と紹介してくださいました。
1. ボトムアップ型評価のワークフロー
- データの概観:システムアーキテクチャに応じたデータの分類
- 用途の確認:ログデータから、どのような用途で使用されているかを分析
- 人手での検証:用途ごとに誤りや改善点などを確認
- 自動化の検討:ChatGPTなどの生成AIを活用した評価の自動化
2. ボトムアップ型評価の課題
過去のログから良い文章は入手しやすい一方、実際に該当する「答えてほしくない文章」は入手しにくい点です。特に、意図的に回答を避けたいような文章は、過去ログにはほとんど存在しません。
3. 曖昧な評価に向き合う方法論
生成AIの評価には、曖昧な要素をどのように評価するかが大きな課題となります。Human-in-the-loop 機械学習 (共立出版) において、アノテーションの工夫、チームによる評価の注意点など、曖昧な要素を評価するための具体的な方法論が示された点は、今後の生成AI開発において大いに役立つ知見と言えるでしょう。
最後に「生成AIは日々進化しているので、今回のガイドラインやレポートも、あくまで現時点での情報である」と前置きした上で、今回の発表を締めくくってターンエンド!
杉山さん、お疲れ様でした!
(Gemini Pro 1.5 作)
セッション2: 大規模言語モデル評価ツール Lens for LLMs のご紹介
パネリスト: 株式会社Citadel AI 劉 弘毅さん
続いて、同じく Citadel AI 社の劉さんより、評価ツールを活用した LLM の品質管理についてご紹介いただきました。劉さんによると LLM を含むシステム開発における課題は大きくわけて次の3つがあります。
- 問題のある出力(ハルシネーション、不適切な出力 etc.)の検出が難しい
- システム変更時の品質変化の評価を客観的に計測し比較することが難しい
- LLM の出力の評価には人力作業が必要で、多くの労力と時間を要する
これらを解決するために開発されたのが Citadel AI 社の Lens for LLMs です。Lens for LLMs は大規模な自動評価と少量の人手評価を組み合わせることで従来よりも効率的かつ高精度に LLM の品質を評価できるツールであるとのことです。
例えば、ある質問に対する2つの異なるLLMの回答を比較するデモでは、それぞれの回答内容に加え、
- 回答の関連性
- 事実の一貫性
といった指標が可視化され、LLM の品質をより詳細に評価できます。
さらに、分析結果として
「この質問に対しては、A のモデルの方が適切に回答している。B のモデルは、ソースと矛盾する内容を答えている」
といった、指標を説明する内容も表示されます。自分も LLM の評価ツールはいくつか試しているものの、いずれもスクラッチ作業や必要に応じた調整やカスタマイズが必要になることが多いので、最初から評価からその結果に関する理由の深堀りまでの一連の流れを行えるのは、評価作業がかなり捗るだろうと感じました。
(参考) https://www.citadel.co.jp/blog/2024/04/23/lens-for-llms/
(喜久里 陽 / 株式会社Hogetic Lab)
OST:生成AI活用の課題をディスカッション
中締めの後、オフラインで現地参加されていた方で OST (Open Space Technology) を行いました。OST とは、参加者同士が自由にテーマを選び、グループに分かれて議論を進める手法です。懇親会などで自然発生的に生まれるような、活発な意見交換を意図的に促進する効果があります。
今回の OST では、以下のような流れで進められました。
- テーマの提示: 事前にいくつかテーマを設定
- グループ分け: 参加者は興味のあるテーマを選び、グループに分かれる
- 議論: 各グループでテーマについて自由に議論
- まとめ: 最後に各グループの議論結果を共有し全体で共有
議論のテーマはその場で募集され、例えば下記のような内容が挙がりました。
- データ分析ではどのように LLM を使えるか
- RAG の精度向上ってどうすればよいの
- LLM の Finetuning など
この中で自分は「データ分析ではどのように LLM を使えるか」というテーマに参加し、テーマ内の各参加者の日頃の課題感を伺ったり、自らの課題を共有したりしました。例えば、位置情報データとLLMを組み合わせることでユーザーの行動パターンやニーズのインサイトを探ったり、検索クエリの順番を分析することで、ユーザーの意図をより正確に捉えて新たな検索体験を提供できるようなアイデアも議論されました。普段の業務だけでは関わることの少ないドメインのや技術領域のユースケースや適用例を知ることができ、興味深く議論させていただきました。
最後の各テーマのラップアップにおいては例えば、「RAG の精度向上には LLM や検索のチューニングのみならず、データ基盤や業務プロセスの整備が必須だよね」といったまとめが話されており、自分の業務での迷いや実感に近いことが聞けて刺激や学びの多い場となりました。
(喜久里 陽 / 株式会社Hogetic Lab)
ブログ締めの言葉
今回の Jagu’e’r AI/ML 分科会は、「生成 AI の品質評価」という、まさに今ホットなテーマで開催され、参加者同士の議論も活発に行われていました。ビジネスシーンでの生成 AI 活用も加速している中で、同時にその品質評価の重要性も増しているといえます。
セッションでは、杉山さん、劉さんによる発表で LLM の品質管理の重要性と、そのためのツールである Lens for LLMs が紹介されました。生成 AI の品質評価における課題や具体的な評価アプローチや評価ツールなどにわたって実用的な議論が展開されました。OST では、参加者同士が自由にテーマを選び、活発な議論が行われました。生成 AI 利用に関わる様々なテーマについて、参加者それぞれが日々の業務で抱える課題やアイデアを共有し、刺激的な時間を過ごせたのではないでしょうか。
今回のイベントを通じて、生成 AI 利用の有用性や課題を改めて認識できたかと思います。Jagu’e’r AI/ML 分科会は、今後も AI/ML 分野の重要な動向や課題を共有しながら、みなさまと盛り上げていきたいと思います。次回のイベントもどうぞお楽しみに! 最後は恒例の Jagu’e’r ポーズでの記念撮影です。
(喜久里 陽 / 株式会社Hogetic Lab)