データ加工ツールは、生データとOceanBaseデータベースをつなぐ中心的な架け橋です。以下に主要なツールを簡潔に紹介します。
OceanBase Developer Center (ODC)
OceanBase Developer Center (ODC)は、データベースのグラフィカル開発ツールであり、データ開発と本番運用における変更管理を協働で行うためのプラットフォームでもあります。ODCにはデスクトップ版とWeb版の2種類があります。デスクトップ版はデータベース開発ツールとしての機能に重点を置き、Windows、macOS、Linuxオペレーティングシステムをサポートしており、軽量で導入しやすい特徴があります。Web版はツール機能に加えて、管理・協働機能も提供し、データベース変更の安全性、コンプライアンス、効率性に重点を置いています。
ODCの使用方法については、OceanBase Developer Center (ODC)を参照してください。
エコシステムETLツール
Flink
Flinkは大規模データの処理と分析を目的としたオープンソースフレームワークです。Flink CDCは、このプラットフォーム上で実装されたデータベース変更イベントをキャプチャするコンポーネントです。両者を組み合わせることで、強力なリアルタイムデータ処理・分析ソリューションを提供できます。
Flinkの使用方法については、Flink CDCを使用してMySQLデータベースからOceanBaseデータベースへデータを同期するおよびFlink CDCを使用してOceanBaseデータベースからMySQLデータベースへデータを移行するを参照してください。
dbt (Data Build Tool)
dbt (data build tool)は、SQLを通じてデータ変換を実現し、コマンドをテーブルやビューに変換できるオープンソースのデータ変換ツールです。本記事では、dbt-oceanbaseを使用してOceanBaseデータベース内のデータを分析する方法について説明します。
dbtの使用方法については、dbtを使用してOceanBaseデータを分析するを参照してください。
DataWorks
DataWorksは、Alibaba Cloud上のデータ開発・ガバナンスプラットフォームです。MaxCompute、Hologres、EMR、AnalyticDB、CDPなどのビッグデータエンジンを基盤とし、データウェアハウス、データレイク、レイクハウスなどのソリューションに対して、統一されたエンドツーエンドの処理能力を提供します。DataWorksは、データ統合、データ開発、データモデリング、データ分析など、多様な機能を備えています。
AWS Glue
AWS Glueはサーバーレスのデータ統合サービスであり、ユーザーが複数のソースからのデータを簡単に検出、準備、移動、統合し、分析、機械学習、アプリケーション開発を支援することを目的としています。データ検出、最新のETL、データクレンジングと変換、そして一元化されたカタログといった包括的なデータ統合機能を単一のサービスで提供します。AWS Glueはインフラ管理が不要で、ETL、ELT、ストリーミングなど多様なワークロードをサポートし、あらゆるデータサイズやタイプに合わせてオンデマンドで拡張可能です。
ツール選定の推奨事項
ツール |
主な利点 |
適用シナリオ |
|---|---|---|
| ODC | OceanBase専用管理ツール、エコシステムとの密接連携 | OceanBaseデータベースの開発・運用 |
| Flink | リアルタイムストリーム処理と高スループットのバッチ処理 | ストリームデータ監視、リアルタイムレポート生成 |
| dbt | データモデリングの標準化、分析プロセスの追跡可能性 | 分析系データウェアハウスのモデリング(例:OceanBase) |
| DataWorks | アリババクラウドエコシステムの統合サポート、ビジュアル開発 | クラウドネイティブなデータレイクとオフライン分析 |
| AWS Glue | サーバーレスETL、AWSエコシステムとのシームレス連携 | AWSクラウドでのデータレイク構築とバッチ処理 |