Sparkを用いたOceanBaseの大量データの高速処理と分析|V4.4.2|OceanBaseデータベース|OceanBaseデータベースドキュメント|分散データベース

Sparkを用いたOceanBaseの大量データの高速処理と分析

最終更新日：2026-06-15 02:31:30 更新

背景

デジタルトランスフォーメーションの波が押し寄せる中、データは企業のコアアセットとなっています。膨大なデータを効率的に処理し、その価値を掘り出すことが、企業の競争力向上の鍵となっています。OceanBaseデータベースは、高性能な分散型データベースであり、トランザクション処理とデータウェアハウス機能を兼ね備え、大規模データのストレージとクエリをサポートします。一方、Apache Sparkは分散型計算フレームワークとして、その高い計算能力から膨大なデータを処理するための最適なツールです。

本記事では、Sparkを活用してOceanBaseデータベース内の大量データを高速に処理・分析する方法について詳しく説明します。Sparkの分散型計算フレームワークとOceanBaseの高い拡張性を組み合わせることで、データ処理速度とシステムの応答性能を最大限に引き出します。

ビジネスシナリオの紹介

eコマース業界において、ユーザー行動分析は、ビジネスプロセスを最適化し、ユーザーエクスペリエンスを向上させるための核心的な手法です。例えば、ユーザーの閲覧や購入などの行動を分析することで、企業はユーザーの嗜好を掘り出し、潜在顧客を予測し、商品推薦戦略を最適化することができます。

本記事では、eコマースのユーザー行動分析を例に、以下の手順で完全なデータ処理チェーンを構築します：

データ準備：ユーザー行動データセット(CSV形式)を取得します。
データストレージ：データをOceanBaseデータベースにインポートします。
データ処理：Spark SQLを使用して、データのクレンジング、変換、分析を実行します。
結果ストレージ：分析結果をOceanBaseに書き戻します。
詳細な分析：ユーザーの嗜好、人気商品、潜在顧客などの重要な指標を分析します。

データセットフィールドの説明：

UserID：ユーザーの一意の識別子です。
Timestamp：ユーザー行動が発生した時間です。
PageURL：アクセスしたページのURLです。
ProductID：商品の一意の識別子です。
ActionType：行動タイプ(例：browse、cart、purchase)です。

チュートリアルの目標

このチュートリアルでは、以下のユーザー行動分析の目標を達成します：

ユーザー嗜好のマイニング：プラットフォーム上でのユーザーの行動（閲覧、購入など）を分析し、特定の商品に対するユーザーの興味や嗜好を把握します。
潜在顧客の予測：ユーザーの行動データを分析し、購入を完了する可能性の高い潜在的な高価値顧客を選別します。
人気商品の分析：直近の期間における人気商品を統計し、商品推薦の最適化の根拠とします。

前提条件

開始する前に、以下の環境が準備されていることを確認してください：

Sparkクラスタ：Spark SQLを使用した分散コンピューティングタスクの実行をサポートするように、デプロイおよび設定済みであること。詳細については、Sparkクラスタのデプロイを参照してください。

また、Sparkインストールパッケージをダウンロードして解凍し、このチュートリアルを試してみることもできます。
OceanBaseデータベース：デプロイが完了しており、JDBCまたはMySQLプロトコルでアクセス可能であること。詳細については、MySQL Connector/J による OceanBase データベース接続サンプルプログラムを参照してください。
データセット：ユーザー行動のCSVファイル（例：user_behavior.csv）が準備されていること。これは[https://www.kaggle.com/datasets]下载数据集。]
必要な jar パッケージのダウンロードとインストール。

spark-connector-oceanbaseをダウンロード

mysql-connector-jをダウンロード

最新バージョンのspark-connector-oceanbaseとmysql-connector-jを使用するには、リンクをクリックしてダウンロードすることもできます。

手順

ステップ１：SparkとOceanBaseの接続を設定する

OceanBase接続情報を取得する：
```
jdbc:mysql://<oceanbase_host>:<port>/<database>?useSSL=false
```
- パラメータ説明：
  - oceanbase_host：OceanBaseデータベースのIPアドレスまたはドメイン名。
  - port：ポート番号（ODPリスニングのデフォルトは2883、直接接続リスニングのデフォルトは2881）。
  - database：ターゲットデータベース名。
依存ドライバをインストールする：
- spark-connector-oceanbase と mysql-connector-j の jar ファイルをSparkのディレクトリに移動します：
```
cp spark-connector-oceanbase-3.4_2.12-1.1.jar $SPARK_HOME/jars/
cp mysql-connector-j-8.2.0.jar $SPARK_HOME/jars/
```

Spark Catalogを設定する：

$SPARK_HOME/conf/spark-defaults.conf を編集し、以下の設定を追加します：

spark.sql.catalog.ob=com.oceanbase.spark.catalog.OceanBaseCatalog
spark.sql.catalog.ob.url=jdbc:mysql://localhost:2881
spark.sql.catalog.ob.username=root@test
spark.sql.catalog.ob.password=******
spark.sql.catalog.ob.schema-name=test

Sparkを再起動して、設定が有効になることを確認します。

ステップ2：データセットをOceanBaseに読み込む

データファイルの準備：
- サンプルCSVファイル user_behavior.csv の構造：
```
UserID,Timestamp,PageURL,ProductID,ActionType
U001,2023-01-01 10:00:00,/product/1001,1001,browse
U002,2023-01-01 10:15:00,/product/1002,1002,purchase
```
  Sparkのインストールパッケージをダウンロードして本チュートリアルを体験する場合は、./bin/spark-sql を使用してspark-sqlを起動できます。
```
cd spark-3.x.x-bin-hadoop3
./bin/spark-sql
```
  起動成功時の一部の出力コードは以下のとおりです：
```
...
Spark master: local[*], Application Id: local-1744093026660
spark-sql (default)>
```

ターゲットテーブルの作成：

spark-sql (default)>CREATE TABLE user_behavior (
    UserID STRING,
    Timestamp TIMESTAMP,
    PageURL STRING,
    ProductID STRING,
    ActionType STRING
);

データの読み込み：

Spark SQLを使用してCSVファイルを読み込み、OceanBaseに書き込む：

-- CSVファイルを一時ビューに読み込む
spark-sql (default)>CREATE OR REPLACE TEMP VIEW user_behavior_data
USING csv
OPTIONS (
    path '/path/to/user_behavior.csv',
    header 'true',
    inferSchema 'true'
);

-- OceanBaseテーブルに書き込む
spark-sql (default)>INSERT INTO user_behavior SELECT * FROM user_behavior_data;

ステップ3：データのクレンジングと変換

欠損値の削除：

spark-sql (default)>SELECT * FROM user_behavior
WHERE UserID IS NULL OR Timestamp IS NULL OR ProductID IS NULL OR ActionType IS NULL;

有効な行動のフィルタリング：

browse と purchase タイプの行動のみを保持します：

spark-sql (default)>CREATE OR REPLACE TEMP VIEW cleaned_data AS
SELECT *
FROM user_behavior
WHERE ActionType IN ('browse', 'purchase')
  AND UserID IS NOT NULL
  AND ProductID IS NOT NULL;

クレンジング結果の検証：

spark-sql (default)>SELECT COUNT(*) AS total_records FROM cleaned_data;

ステップ4：行動分析と重要指標の抽出

1. ユーザー行動統計

ユーザーごとの行動数を集計する：

spark-sql (default)>SELECT UserID, ProductID, ActionType, COUNT(*) AS ActionCount
FROM cleaned_data
GROUP BY UserID, ProductID, ActionType
ORDER BY UserID, ActionCount DESC;

2. 人気商品分析

商品ごとの行動総量を集計する：

spark-sql (default)>SELECT ProductID, COUNT(*) AS TotalActions
FROM cleaned_data
GROUP BY ProductID
ORDER BY TotalActions DESC
LIMIT 10;

3. 潜在顧客のスクリーニング

閲覧回数が5以上のユーザーをスクリーニングする：

spark-sql (default)>SELECT UserID, ProductID, COUNT(*) AS BrowseCount
FROM cleaned_data
WHERE ActionType = 'browse'
GROUP BY UserID, ProductID
HAVING BrowseCount > 5;

ステップ5：分析結果をOceanBaseに書き戻す

ターゲットテーブルの作成：

spark-sql (default)>CREATE TABLE potential_users (
    UserID STRING,
    ProductID STRING,
    BrowseCount INT
);

潜在顧客データの保存：

spark-sql (default)>INSERT INTO potential_users
SELECT UserID, ProductID, BrowseCount
FROM (
    SELECT UserID, ProductID, COUNT(*) AS BrowseCount
    FROM cleaned_data
    WHERE ActionType = 'browse'
    GROUP BY UserID, ProductID
    HAVING BrowseCount > 5
);

ステップ6：高度な分析と拡張

1. 行動時間分布分析

商品閲覧の時間分布を集計する：

spark-sql (default)>SELECT ProductID, HOUR(Timestamp) AS Hour, COUNT(*) AS BrowseCount
FROM cleaned_data
WHERE ActionType = 'browse'
GROUP BY ProductID, HOUR(Timestamp)
ORDER BY BrowseCount DESC;

2. ユーザー行動ファネル分析

ユーザーの閲覧から購入までのコンバージョン率を分析する：

spark-sql (default)>SELECT UserID,
       COUNT(CASE WHEN ActionType = 'browse' THEN 1 END) AS BrowseCount,
       COUNT(CASE WHEN ActionType = 'purchase' THEN 1 END) AS PurchaseCount
FROM cleaned_data
GROUP BY UserID;

プロセスの概要

Spark + OceanBase の統合ソリューションにより、以下の完全なプロセスを実現しました：

データインポート：Sparkを使用してCSVデータをOceanBaseに読み込みます。
データクレンジング：無効なレコードをフィルタリングし、重要な行動データを保持します。
分析とマイニング：
- ユーザー嗜好分析（行動統計）。
- 人気商品のマイニング（商品人気度ランキング）。
- 潜在顧客のスクリーニング（ページビュー数が多いユーザー）。
結果ストレージ：分析結果をOceanBaseに書き戻し、今後の分析に利用します。

プランの価値

ストレージとコンピューティングの分離：
- OceanBase は、大量データの効率的なストレージと高並行性クエリを担当します。
- Spark は分散コンピューティングタスクを担当し、異種データソースにまたがる連携データ分析を実行することで、データ分析の範囲を拡大し、分析効率を向上させます。
エンドツーエンドの最適化：
- データのインポートから結果の出力まで、ETLプロセス全体をカバーします。
- リアルタイム分析と履歴データマイニングの組み合わせをサポートします。

結論

OceanBaseの高い拡張性を備えたストレージ能力とSparkの分散型計算能力により、企業は膨大なユーザー行動データを効率的に処理し、重要なビジネス指標を迅速に分析することができます。これにより、精密な運用とインテリジェントな意思決定をデータで支えることが可能です。このソリューションは、eコマースシナリオだけでなく、金融や物流など多様な分野にも拡張可能であり、企業のデジタルトランスフォーメーションにおける重要な技術基盤となります。

OceanBase

顧客事例