OceanBaseデータベースは、ベクトル型データの格納、ベクトルインデックス、そしてembeddingベクトル検索機能を提供しています。これにより、ベクトル化されたデータをOceanBaseデータベースに保存し、その後の検索処理で利用することが可能になります。
Cloudflare Workers AIは、Cloudflareが提供するサービスであり、開発者がグローバルネットワーク上で機械学習モデルを実行できるようにします。REST APIを使用することで、開発者はAI機能を簡単にアプリケーションに統合できます。
前提条件
OceanBaseデータベースV4.3.3以降をデプロイし、MySQLモードのテナントを作成していること。テナントの作成後、以下の手順に従ってください。
環境に使用可能なMySQLテナント、MySQLデータベース、およびアカウントが存在し、データベースアカウントに読み取り書き込み権限が付与されていること。
Python 3.11以降をインストールしていること。
依存関係のパッケージをインストールしていること。
python3 -m pip install pyobvector requests sqlalchemy httpxベクトル検索機能を有効にするために、テナントで
ob_vector_memory_limit_percentage構成パラメータを設定していることを確認してください。V4.3.5 BP3以前のバージョンでは、値として30を設定することを推奨します。V4.3.5 BP3以降のバージョンでは、デフォルト値の0のままにすることを推奨します。この構成パラメータをより正確に設定する必要がある場合は、ob_vector_memory_limit_percentage参照してこの値を計算してください。
ステップ1:データベース接続情報を取得する
OceanBaseデータベースのデプロイ担当者または管理者から、該当するデータベース接続文字列を取得します。例:
obclient -h$host -P$port -u$user_name -p$password -D$database_name
パラメータの説明:
$host:OceanBaseデータベースへの接続IPアドレス。OceanBaseデータベースプロキシ(OceanBase Database Proxy、ODP)接続方式ではODPアドレスを使用し、直接接続方式ではOBServerノードのIPアドレスを使用します。$port:OceanBaseデータベースへの接続ポート。ODP接続方式のデフォルトポートは2883で、ODPデプロイ時にカスタマイズ可能です。直接接続方式のデフォルトポートは2881で、OceanBaseデータベースのデプロイ時にカスタマイズ可能です。$database_name:アクセス対象のデータベース名。注意
テナントに接続するユーザーは、そのデータベースに対する
CREATE、INSERT、DROP、およびSELECT権限を持っている必要があります。ユーザー権限の詳細については、MySQLモードの権限分類を参照してください。$user_name:テナントの接続アカウント。ODP接続の一般的な形式:ユーザー名@テナント名#クラスタ名またはクラスタ名:テナント名:ユーザー名。直接接続方式の形式:ユーザー名@テナント名。$password:アカウントのパスワード。
その他の接続文字列の詳細については、OBClientを使用したOceanBaseテナントへの接続を参照してください。
ステップ2:AIアシスタントを構築する
Cloudflare APIキーの環境変数の設定
Cloudflare APIキーを取得し、OceanBase接続情報の環境変数に設定します。
export OCEANBASE_DATABASE_URL=YOUR_OCEANBASE_DATABASE_URL
export OCEANBASE_DATABASE_USER=YOUR_OCEANBASE_DATABASE_USER
export OCEANBASE_DATABASE_DB_NAME=YOUR_OCEANBASE_DATABASE_DB_NAME
export OCEANBASE_DATABASE_PASSWORD=YOUR_OCEANBASE_DATABASE_PASSWORD
export CLOUDFLARE_API_KEY=YOUR_CLOUDFLARE_API_KEY
サンプルコードスニペット
ここでは、bge-base-en-v1.5を例に、Cloudflare Workers AI埋め込みAPIを使用してベクトルデータを生成します。
import requests,os,httpx
from sqlalchemy import Column, Integer, String
from pyobvector import ObVecClient, VECTOR, IndexParam, cosine_distance
documents = [
"Machine learning is the core technology of artificial intelligence",
"Python is the preferred programming language for data science",
"Cloud computing provides elastic and scalable computing resources",
"Blockchain technology ensures data security and transparency",
"Natural language processing helps computers understand human language"
]
BASE_URL = "https://api.cloudflare.com/client/v4/accounts"
model_name = "@cf/baai/bge-base-en-v1.5"
account_id="0f390650bbe6ff23336badcf24e85c93"
CLOUDFLARE_API_KEY = os.getenv('CLOUDFLARE_API_KEY')
api_url = f"{BASE_URL}/{account_id}/ai/run/{model_name}"
# HTTPクライアントの作成
httpclient = httpx.Client()
httpclient.headers.update({
"Authorization": f"Bearer {CLOUDFLARE_API_KEY}",
"Accept-Encoding": "identity"
})
payload = {"text": documents}
response = httpclient.post(api_url, json=payload)
embedding_response = response.json()["result"]["data"]
data = []
for i, text in enumerate(documents):
data.append({
'content': text,
'content_vec': embedding_response[i] # リスト形式に変換
})
print(f"Successfully processed {len(data)} texts")
ベクトルテーブル構造を定義し、ベクトルをOceanBaseに同時に保存する
cloudflare_oceanbase_demo_documents という名前のテーブルを作成します。このテーブルには、テキストを格納する content 列、埋め込みベクトルを格納する content_vec 列、およびベクトルインデックス情報が含まれます。そして、ベクトルデータをOceanBaseに保存します。
#Connect OceanBase Serverless
OCEANBASE_DATABASE_URL = os.getenv('OCEANBASE_DATABASE_URL')
OCEANBASE_DATABASE_USER = os.getenv('OCEANBASE_DATABASE_USER')
OCEANBASE_DATABASE_DB_NAME = os.getenv('OCEANBASE_DATABASE_DB_NAME')
OCEANBASE_DATABASE_PASSWORD = os.getenv('OCEANBASE_DATABASE_PASSWORD')
ob_client = ObVecClient(uri=OCEANBASE_DATABASE_URL, user=OCEANBASE_DATABASE_USER,password=OCEANBASE_DATABASE_PASSWORD,db_name=OCEANBASE_DATABASE_DB_NAME)
#Create the vector table.
table_name = "cloudflare_oceanbase_demo_documents"
ob_client.drop_table_if_exist(table_name)
cols = [
Column("id", Integer, primary_key=True, autoincrement=True),
Column("content", String(500), nullable=False),
Column("content_vec", VECTOR(768))
]
# Create vector index
vector_index_params = IndexParam(
index_name="idx_content_vec",
field_name="content_vec",
index_type="HNSW",
distance_metric="cosine"
)
ob_client.create_table_with_index_params(
table_name=table_name,
columns=cols,
vidxs=[vector_index_params]
)
print('- Inserting Data to OceanBase...')
ob_client.insert(table_name, data=data)
セマンティック検索
Cloudflare Workers AI埋め込みAPIを使用してクエリテキストの埋め込みベクトルを生成し、その後、クエリテキストの埋め込みベクトルとベクトルテーブル内の各埋め込みベクトルとのコサイン距離に基づいて、最も関連性の高いドキュメントを検索します。
# Query the most relevant document based on the query.
query = "Programming languages for data analysis"
# Generate the embedding for the query via Jina AI API.
payload = {"text": query}
response = httpclient.post(api_url, json=payload)
query_embedding = response.json()["result"]["data"]
res = ob_client.ann_search(
table_name,
vec_data=query_embedding[0],
vec_column_name="content_vec",
distance_func=cosine_distance,
with_dist=True,
topk=1,
output_column_names=["id", "content"],
)
print('- The Most Relevant Document and Its Distance to the Query:')
for row in res.fetchall():
print(f' - ID: {row[0]}\n'
f' content: {row[1]}\n'
f' distance: {row[2]}')
期待される結果
- ID: 2
content: Python is the preferred programming language for data science
distance: 0.139745337621493