活動報告: データ利活用分科会 Dataplex解説イベントレポート
みなさま、こんにちは。GWはいかがお過ごしでしょうか?
少し前のことですが、2023/04/18に Dataplex 解説のイベントは緊急開催されました。
このイベントでは、Google Cloud カスタマー エンジニアの山田 雄さんにより、デモを交えてDataplexというソリューションが紹介されました。
それでは、イベントのレポートをどうぞ!
Dataplex の説明
まず、エンドツーエンドのデータ分析プラットフォームの全体においては、データガバナンスのためツールとして、データ収集から分析まで幅広く役に立つ製品ではあります。なお、最近のアップデートにより、活用まで幅がさらに広げてつつあります。
データメッシュのデータアーキテクちゃと管理手法を取り入れた Dataplex は、サイロ化されたデータの一元管理をデータ移動なしでデータ管理ができます。例えば、GCP プロジェクトが分けられたデータに対しても、論理的に一つのデータ括りとして管理できます。
セキュリティとガバナンスの集中化について、データアクセスの認証、承認、暗号化、モニタリングなどの機能を提供し、データの保護とコンプライアンスを確保します。
そして、Dataplex は AIおよび機械学習の技術を利用し、自動的に収集されたデータに対して、メタデータやデータの品質なども検出・チェックできます。
データマネジメントに必要な知識領域を表すホイールの中心に、データガバナンスがあります。
このホイールを元にしたデータガバナンスフレームワークはピラミッド型の構造(右)とPeter Aikenさんが提唱しました。
しかし、多くの現場では、ピラミッドの底から作り上げていくのではなく、データインテグレーション・ストレージ・オペレーションから着手されています。
そして、メタデータが用意できていないや、品質が担保できていないなどの問題を直面しています。
これら問題解決に役立つ Dataplex というソリューションは、ピラミッド底のデータガバナンス、データアーキテクチャ、データ品質とメタデータをカバーします。
ここからは、Dataplex 機能の説明が始まります。
Dataplex レイクの構成ですが、上位からはレイク -> ゾーン -> アセットとなっています。
アセットはGCSバケットや BigQuery データセットと1対1ように紐付けます。
ゾーンはプロジェクトを横断し、複数アセットを束ねることができます。
権限管理においては、上位のレイク・ゾーンに対して、権限が付与されると、その配下のリソースへの権限も継承することになります。
レイクとゾーン階層の概念を会社組織とマッピングし、柔軟的に対応できます。
例えば、部門・グループとプロジェクト単位をマトリックスな構成もできます。
BigQuery、Pub/Sub のスキーマ情報から、メタデータ管理として、Dataplex が自動的に収集してくれます、さらに説明やタグを付与することができます。
Bigtable と Spanner がPreviewサポートされるようになり、GCP サービスにおけるメタデータの自動収集機能も増えてきました。
OSSで提供されいているConnectorとAPIで、オンプレミスからメタデータを「自動」的に収集することも実現可能です。
収集できたメタデータに対して、Lake、Zoneの単位でフィルタリング検索もできます。
そして、部門間で統一された定義でコミュニケーションができるように、用語集の編集機能もあります。
もう一つ目玉機能はデータリネージです。
例えば、BigQuery では、rawからデータマートに作成したデータ依存関係は画像で一目で把握できます。
現時点のサポート対象は BigQuery が多いですが、Cloud Composer と Cloud Data Fusionでも一部リネージ対応しました。
こちらもAPIを使ってで独自にリネージを定義できます。
Auto Data Quality・Data Profiling の二つ機能はまだPreviewですが、
Null・値(0/1)・正規表現チェックは Auto Data Quality で簡単にできました。
一方、Data Profilingでは、テーブルの統計情報が見えるようになりました。
例えば、インテジャに対して、最大や平均や分布などの統計情報が見えます。
所感・まとめ
データ活用が注目されている一方で、冒頭に山田さんがピラミッドの話をしたように、データガバナンスができていないなど課題が抱えられているのは現場の状況です。
それを解決するため、エンタープライズ向け、Google Cloud はデータメッシュ構造で管理できる Dataplex をさらに推進しています。
山田さんの説明はわかりやすくて、Dataplex の適用可能な場面のイメージをつかむことができました。
そして、さらに便利になる Dataplex のアップデートを期待しつつ、データガバナンスを組織内で進めていきたいと思います。