説明
この関数は、指定されたトークナイザーとJSON形式のパラメータに基づいてテキストをトークン化し、その結果を出力します。
構文
TOKENIZE('text', ['parser'], ['behavior_ctrl'])
パラメータの説明
| フィールド | 説明 |
|---|---|
| text | テキストを表します。TEXT、CHAR、VARCHAR 型のデータをサポートします。 |
| parser | ステミナーサーバーの名前を表します。BENG (英語)、NGRAM (中国語)、SPACE (スペース)、IK (中国語) などのステミナーサーバーをサポートします。
説明OceanBaseデータベースV4.3.5では、V4.3.5 BP1バージョンから |
| behavior_ctrl | JSON形式でパラメータを指定します。オプション構成パラメータは以下のとおりです:
|
例
TOKENIZE 関数を使用して文字列 I Love China を単語に分解し、beng を区切り文字として使用します。次に、JSON 形式のパラメータを使用して出力オプションを設定します。
SELECT TOKENIZE('I Love China','beng', '[{"output": "all"}]');
実行結果は次のとおりです:
+--------------------------------------------------------+
| TOKENIZE('I Love China','beng', '[{"output": "all"}]') |
+--------------------------------------------------------+
| {"tokens": [{"love": 1}, {"china": 1}], "doc_len": 2} |
+--------------------------------------------------------+
1 row in set