データ加工ツールは、生データとOceanBaseデータベースをつなぐ中心的な架け橋です。以下に主要なツールを簡潔に紹介します。
OceanBase Developer Center (ODC)
OceanBase Developer Center (ODC)は、データベースのグラフィカル開発ツールであり、データ開発・本番運用・変更管理を協働で行うための管理プラットフォームでもあります。ODCにはデスクトップ版とWeb版の2種類があります。デスクトップ版はデータベース開発ツールとしての機能に重点を置き、Windows、Mac、Linux OSに対応しており、軽量で導入が容易という特徴があります。Web版はツール機能を提供するだけでなく、管理・協働機能も備えており、データベース変更の安全性、コンプライアンス、効率性に重点を置いています。
ODCの使用方法については、OceanBase開発者センター(ODC)を参照してください。
エコシステムETLツール
Flink
Flinkは、大規模データの処理と分析を目的としたオープンソースのフレームワークです。そのコンポーネントであるFlink CDCは、データベースの変更イベントをキャプチャするために実装されています。FlinkとFlink CDCを組み合わせることで、強力なリアルタイムデータ処理・分析のソリューションを実現できます。
Flinkの使用方法については、Flink CDCを使用してMySQLデータベースからOceanBaseデータベースにデータを同期するおよびFlink CDCを使用してOceanBaseデータベースからMySQLデータベースにデータを移行するを参照してください。
dbt (Data Build Tool)
dbt (data build tool)は、SQLを通じてデータ変換を実現し、コマンドをテーブルやビューに変換できるオープンソースのデータ変換ツールです。ここでは、dbt-oceanbaseを使用してOceanBaseデータベース内のデータを分析する方法を紹介します。
dbtの使用方法については、dbtを使用したOceanBaseデータの分析を参照してください。
DataWorks
DataWorksは、Alibaba Cloud上のデータ開発・ガバナンスプラットフォームです。MaxCompute、Hologres、EMR、AnalyticDB、CDPなどのビッグデータエンジンをベースに、データウェアハウス、データレイク、レイクハウスなどのソリューションに対して、統一されたエンドツーエンドの処理能力を提供します。DataWorksは、データ統合、データ開発、データモデリング、データ分析など、多彩な機能を備えています。 DataWorksの使用方法については、DataWorksを参照してください。
AWS Glue
AWS Glueは、サーバーレスのデータ統合サービスです。ユーザーが複数のソースからのデータを簡単に検出し、準備、移動、統合し、分析、機械学習、アプリケーション開発をサポートすることを目的としています。データ検出、最新のETL、データクレンジングと変換、そして一元化されたカタログといった包括的なデータ統合機能を単一のサービスで提供します。AWS Glueはインフラ管理が不要で、ETL、ELT、ストリーミングなど多様なワークロードをサポートし、あらゆるデータサイズやタイプに合わせてオンデマンドで拡張できます。
AWS Glueの使用方法については、AWS Glueを使用したOceanBaseデータの移行を参照してください。
ツールの選定に関する推奨事項
| ツール | 主な利点 | 適用シナリオ |
|---|---|---|
| ODC | OceanBase専用の管理ツール、エコシステムとの密接な連携 | OceanBaseデータベースの開発・運用 |
| Flink | リアルタイムストリーム処理と高スループットのバッチ処理 | ストリーミングデータ |
| 監視、リアルタイムレポート生成 | ||
| dbt | データモデリングの標準化、分析プロセスの追跡可能性 | 分析系データウェアハウスのモデリング(OceanBaseなど) |
| DataWorks | Alibaba Cloudエコシステムの統合サポート、ビジュアル開発 | クラウドネイティブなデータレイクとオフライン分析 |
| AWS Glue | サーバーレスETL、AWSエコシステムとのシームレス連携 | AWSクラウドでのデータレイク構築とバッチ処理 |