ビッグデータエコシステム統合による移行とは、データソースが既にオフラインデータウェアハウス(Hive、HBase、ORC/Parquetファイルなど)やビッグデータプラットフォームのコンポーネントに存在し、従来のOLTPデータベースやリアルタイムメッセージキューから直接取得されるものではない場合を指します。この種の移行の核心的な目的は、ビッグデータエコシステム内で既に処理または保存されているデータを、効率的かつ信頼性高くOceanBase APデータベースや他のターゲットシステムに統合または移行し、より高度な分析、リアルタイムクエリ、または他の業務システムとの連携を支援することです。
移行シナリオ
- オフラインデータウェアハウスのデータをリアルタイム分析システムに同期する:Hive、Sparkなどのオフラインデータウェアハウスのデータを、リアルタイムデータ処理プラットフォーム(Flink、Kafkaなど)に同期し、リアルタイムデータ処理とストリーミング分析を支援する。
- オフラインデータを長期保存にアーカイブする:オフラインデータウェアハウスの履歴データを長期保存(クラウドオブジェクトストレージS3、Alibaba Cloud OSSなど)にアーカイブし、ストレージコストを削減してデータ保持ポリシーを満たす。
- オフラインデータを外部システムと統合する:HiveデータをSnowflakeなどの外部システムに移行してチーム間の連携を図る、またはビッグデータプラットフォームのデータを業務システムと統合する。
このようなデータ移行シナリオでは、以下の点に注意する必要があります:
- ストレージ形式の変換:例えばParquetからAvroへの形式変換では、異なる形式の圧縮率、クエリパフォーマンス、互換性を考慮する必要があります。
- 大量データの効率的な転送:DistCp、Sparkなどの分散ツールを使用し、並列処理とネットワーク最適化によって転送効率を向上させます。
- メタデータの同期:ソース側(例えばHive Metastore)のメタデータ(テーブル構造、パーティション情報など)が、OceanBase APのターゲットテーブル構造と正しく同期およびマッピングされることを確保します。
関連移行ドキュメント
OceanBaseは多様なビッグデータエコシステム統合ソリューションを提供しています。データソースのタイプに応じて、対応する移行操作ドキュメントをご確認ください:
Hiveデータウェアハウスからの移行
Hiveは一般的なデータウェアハウスとして、以下の2つの移行方法をサポートしています:
HBaseデータベースからの移行
HBaseは分散NoSQLデータベースとして、以下の移行方法をサポートしています:
ファイルからの移行
ファイルシステムに保存されたデータについては、多様な形式の移行をサポートしています:
StarRocksデータベースからの移行
シナリオ1:データの一貫性による同期
RDS(Relational Database Service)とStarRocksのデータは完全に一致しており、用途のみが異なります(RDSはOLTP、StarRocksはOLAP分析に使用されます)。
- 移行方案:異種データ移行を参照してください。
シナリオ2:データの差分による同期
StarRocksのデータはRDSと完全には一致しない場合があります。例: - StarRocksはより長期間の履歴データを保存します。 - StarRocksのデータはFlinkなどのツールによって加工されます(集計、ETL、新規計算フィールドの追加など)。
StarRocksは高性能な分析型データベースとして、移行にはFlink-OMTツールの使用を推奨します。